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لايسمح بإعادة إصدار هذا الكتاب» أو نقله في أي شكل أو وسيلة» 
سواء OST‏ إلكترونية أم يدوية أم ميكانيكية» بها في ذلك جميع أنواع تصوير المستندات بالنسخ» أو 
التسجيل أو التخزين» أو أنظمة الاسترجاع» دون إذن خطي من المركز بذلك. 
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(Plagiarism Detection Systems) : 
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كلمة المركز 


يعمل المركز في جال البحث العلمي ونشر الكتب مستهدفاً التركيز على المجالات 
I s I tou‏ علا tS‏ اجك Ad sei‏ 
الباحثين والجهات الأكاديمية إلى أهمية استثغارها بمختلف وجوه الاستشار» وذلك مثل 
Jie‏ (التخطيط اللغوي) و (العربية في العالم) و(الأدلة والمعلومات) و (تعليم العربية 
لأبناتها أو لغير الناطقين Ce‏ إلى غير ذلك من المجالات» وإن من أهم مجالات البحث 
المستقبلية في اللغة العربية مجال (العربية والحوسبة » والذكاء الاصطناعي) حيث إن 
حياة اللغات ومستقبلها مرهونة بمدى تجاويها مع التطورات التقنية والعالم الافتراضي» 
وكثافة المحتوى الالكتروني المكتوب» وهو ما يشكل تحديا حقيقيا أمام اللغات غير 
المنتجة للمعرفة أو للتقنية. 

وقد عمل المركز على تسليط الضوء على هذا المجال التخصصى؛ مستعينا بالكفاءات 
القادرة من المهتمين بالتخصص البيني (بين اللغة boosts‏ جهودهم» Dalay‏ 
إلى نشرهاء وتعميم مبادئهاء راغباً أن يكون هذا المسار العلمي مقررا في الجامعات في 
كلية العربية والحاسوب» ومجالا بحثيا يقصده الباحثون الأكديميون» والجهات البحثية 
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وقد أصدر المركز سابقا ستة عشر كتاباً ختصا في (حوسبة العربية) وني 
الإفادة من (المدونات اللغوية) في الأبحاث العربية» ويحتفل بإصدار سبعة كتب جديدة 
ختصة في (حوسبة العربية والذكاء الاصطناعي) c‏ ويقدمها للقارئ العربي» وللجهات 
الأكاديمية؛ للإفادة منها في مناهج التعليم والبناء عليه» وهذه الكتب السبعة هي: 
(العربيّة والذكاء الاصطناعيٌ» تطبيقات الذكاء الاصطناعي في خدمة اللغة العربية» 
خوارزميات الذكاء الاصطناعي في تحليل النص العربي» مقدمة في حوسبة اللغة 
العربية» الموارد اللغوية الحاسوبية» المعالجة الآلية للنصوص العربية» تطبيقات أساسية 
في المعالجة الآلية للغة العربية). 


ويشكر المركز السادة مؤلفي الكتب» ومحرريهاء لما تفضلوا به من عمل علمي 
رصين» وأدعو الباحثين والمؤلفين إلى التواصل مع المركز لاستكال المسيرة» وتفتيق 


وفق الله الجهود وسدد الرؤى. 


الأمين العام 
أ. د. محمود إسماعيل صالح 
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تشهد مُعاجَةٌاللّغات t Ce t‏ أساليب مُبتكرة E‏ مها من مط 0 
القائم على استيعاب قوانين هذه اللات وقواعيها؛ ll p‏ بعضّها E‏ من منطق 
الآلة القائم على نمذجة, الله d‏ مُستوياتها المتعددة والواقع أن الأساليبَ والمناهج 
المستخدمة في مُعالجة الأّخات Éa‏ سم بقدر من المرونة الي : تسمحٌ بالجمع بِينَ 
fa cU‏ وإحصائيّة. على التحو الذي يُمَكَنْ من الوصول إلى أفضل cil‏ 
SL‏ في تطبيقات حوسبة اغات ei‏ 

إن الاقف على نجاعة هذه الأساليب وصلاحيّيّها للمُعالحة يستدعي تقيي 
GEI SU VI bap‏ الافتراضىّ إلى إطار تطبيقي عمل ish‏ على 
استكشاف إشكالات المُعاَة eie s‏ ويْقدُمْ حلولا la jóla IG‏ ولعل مثل 
ذلك التقييم يض أيدينا على حقيقةء مفادها أن أساليب مُعالحة اللّغات الطبيعيّة تتكامل 


فيا بينها؛ فقول Lean de‏ ف sa‏ یقات EA‏ و ر Lo‏ أخرى ف تطرير هذه 
التطبيقات. 


vw 


PL. 


من هذا المُنطَلَقء BA‏ للقارئ العرب GEI‏ الراب من سلسلة دراسات وبُحُوث 
في eu‏ اللغة cs adl‏ بعُنوان (تطبيقات أساسيّة في المُعاّة ZI‏ للّغة العربيّة)؛ 
NEE BL Si EDE,‏ 
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ere NEC MEC Un rd‏ رم 


E‏ ل 
الآتي: 


* الفصل الأوّل: مُعاكّة ia‏ العربيّ المكتوب؛ يُعنى بتقنيات eI‏ على ua‏ 
Gl‏ المكتوب» ويشتملٌ على ثلاثة مباحث؛ dots um‏ في المبحث الأول 
طبيعة رسو ال رن و لذلك بإرهاصات الخطاطة العربيّة وتاريخ 

حوسَيتها IA‏ عليها آل ويعنى ا مبحت الثاني بأنواع اعرف الاي 
على ual‏ العربّ المكتوب وتطبيقاته. أكا لحف الثالك فع SU UN‏ 
ae‏ على qan! uad‏ سواءٌ ots‏ مطبوعًا أم مخطوطا؛ ويعرضٌ SUIS‏ 
للمرازه اللو اللارمة درجم وي اكلم اله ف عل MIA‏ 

OSI على‎ c انض العربي المنطوق؛ يُعنى بتقنيات‎ E الفصل الثاني:‎ e 
تمهيدًا حول‎ ÍI ابحث‎ Fg se المنطوق؛ ويشتمل على ثلاثة ثة مباحثٌ؟؛‎ 
مع العناية بتطبيق ذلك في اللّغة‎ casi على الكلام ومُكوّنات‎ QT caa 
(المكتوب» إلى كلام (منطوق).‎ E تحويل‎ S ويعنى المبحث الثاني‎ . d 
لثم اعرف عل اللغة والمتكلم.‎ LII ويعرض البح‎ 

e‏ الفصل ERE SJJ‏ ورگ ماكةٌ هذا 
الفصل على آليّات توظيف الحاسوب في تعليم اللغات؛ حيث cel PE‏ حول 
تقنيات Gd‏ اللغات Ce dll‏ وجدواها في تعلم اللغة؛ s Lad FA s‏ 
عملي حول تعلّم النطق باستخدام تة تقنية coal‏ على الكلام المنطوقء وتطبيقا 
آخرٌ حول تعلّم الكتابة باستخدام تقنية التَعرّف على adl‏ المكتوب. 

äl تطبيقات‎ del يتناولة الفصل باعتباره‎ «qt nell gol الفصل‎ * 

"PC u تمهيدًا حول الأسئلة المقاليّة وأنواعهاء‎ cy Mum 
تقييم الإجابات القصيرة» وأنظمة تقييم‎ le s للمقال»‎ CE لطُرّق التقييم‎ 


EN 


M 
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الرياضيًات» وأنظمة الكشف عن السّرقات الأدبيّة. ىا يعرض لواقع أنظمة 
التقييم الآ في العربية. 
وبعدٌ؛ UB‏ نرجو أن يُساعدَ هذا الكتابُ على فهم أعمق لتقنيات مُعالجة اللّغة 
العربيّة وتطبيقاتها الأساسيّة؛ ونلتمسٌ أن تكونٌ ماده هذا الكتاب مفتاحًا للباحثينٌ في 
ميادين حوسبة اللّغة للبحث عن وسائل مبتكرة لبناء وتطوير تقنيات Lh‏ العربيّة 
عد AE NR‏ 
Js‏ الله تعالى أن يتقبّل هذا الجهد بالذكر الْحَسَنِ والأجر الجزيل» وأن يجعلّه من 
العلم الذي ينفع أصحابه بعد ماتهم. 
ربّنا عليك u$ s‏ وإليك أتبنا وإليك المصير. 
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الفصل الأول 
مُعالجة النْصّ العربِيٌ المكتوب 


اللبحث الأوّل: طبيعة رسم C, l al‏ (الخطاطة). 
المبحث الثاني أنواع التعرّف IT‏ على sn‏ 45 المكتوب. 
المببحث الثّالث: أساليب التَّعرّف JI‏ على النّصّ العريّ المكتوب. 
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المبحث الأول 


طبيعة رسم النص العربي 
(الخطاطة) 


١‏ - خلفية تاريخية لتطور الخطاطة العربية. 
-Y‏ تاريخ حوسبة الخطاطة العربية. 
-Y‏ تحديات الخطاطة العربية التي تواجه التعرف عليها OT‏ 
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١‏ - خلفية تاريخية لتطور الخطاطة العربية 

حافظت اللغة العربية على استمراريتها كلغة محكية محتفظة بكيانها منذ ما يربو على 
ألفي عام - على أقل تقدير- إلى وقتنا هذاء نما يتوجها دون شك كأعرق اللغات الحية 
الكبرى المتداولة في العالم المعاصر. وقد احتفظت هذه اللغة على مدى هذا التاريخ 
الطويل بقدرتها على الاستجابة لمختلف الاحتياجات الحضارية للأجيال المتتابعة» 
كما استجابت باقتدار للتوسعات الجغرافية والتمددات العرقية للمتحدثين بها الذين 
تزايدوا من عدد محدود محصور أساسًا في شبه الجزيرة العربية قبيل ظهور الإسلام حتى 
تجاوز عددهم عام ١١١١م‏ الثلاثمئة وستين مليونًا يتخذون من العربية لغتهم eI‏ 
فضلاً عن عشرات الملايين الآخرين الذين يتحدثونها ضمن ما يربو على مليار مسلم 
غير عربي. 

ورغم أن قواعد الصوتيات والصرف والنحو ... وغير ذلك من أركان اللغة 
ودعائمها قد احتفظت بساتها المميزة عبر ذلك التاريخ الممتد والتوسع المستمرء OP‏ 
هناك تطورات متتابعة كانت تجري على بعض الملامح الأخرى لِلّغة. وتأتي الخطاطة 
العربية (التي تحدد طبيعة رسم النص العربي) ضمن الملامح التي جرت عليها مثل هذه 
التطورات وهي نفس الخطاطة المستخدمة لرسم النصوص في عدد آخر من اللغات 
الشرقية المعاصرة كالْأرْدِيّة والفارسية والكردية» ىا استخدمت لرسم اللغة التركية 
حتى ثلاثينات القرن العشرين الميلادي. 

لم يكن الغالب على سكان شبه الجزيرة العربية قبل الإسلام تكوين دول ذات أنظمة 
مستقرة ومعاملات معقدة» وإن| كانوا في الغالب قبائل بدوية» ولم تكن الكتابة شائعة 
بينهم - حتى أنهم عرفوا وقتذاك بالأميين - حيث اعتمدوا أساسًا في تداول المعلومات 
والمعرفة على رواية وحفظ الأقوال البليغة المختصرة من شعر ونثرء وهو ما تميزوا فيه 
واشتهروا به. أما القلة النادرة التى كانت تعرف الكتابة - ربا بسبب مزاولتها للتجارة 
al Jl‏ عل کی الخويرة واک ها بكري col Lada‏ اا انات adi‏ 
اكتفت بنظام كتابة يميل إلى البساطة. 

كانت الخطاطة في ذلك الوقت الباكر تمثل الحروف العربية الثانية والعشرين 
(أو الثلاثين) بخمسة عشر أو ستة عشر رمرًا رسوميًا (grapheme) (il e‏ ومن 


l4 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


الواضح أن ذلك يسبب التباسًا كبيرًا في تمييز الحروف. وعلى سبيل JUL‏ فإن النقاط لم 
تكن ند ارجات يي الخطاطة y cia al‏ الاك نقد als‏ وف لخادو ا كام رايم 
كلها JEE‏ بنفس الرمز الرسومي» وكذلك كانت حروف الباء والتاء والثاء والنون والياء 
كلها مثل بنفس الرمز الرسوميء ...» إلخ. وقد تمكن مَنْ يكتبون العربية في ذلك الزمن 
من التعايش مع هذا الالتباس بسبب ملكاتهم اللغوية الرفيعة» oos‏ كذلك بسبب 
البساطة النسبية للرسائل المتداولة بينهم. 

ويبين الشكل التالي كيف كانت ستبدو العبارة الآتية «الترجمة وسيلة أساسية لتبادل 
الحضارات بين الشعوب على مر العصور» عند خطاطتها في تلك المرحلة الباكرة. 








الترحمة وسبلة Js Load dam hul‏ الحضارات ننن ll‏ 2252 علي مر العصور 
الشّكل 1-١‏ : مثال على عبارة مكتوبة بالخطاطة العربية القديمة ما قبل الإسلام. 


وني بدايات القرن السابع الميلادي ei‏ الرسول الكريم محمد - صل الله عليه 
وسلم - برسالة الإسلام وفي القلب منها القرآن الكريم بلسان عربي مبين وقد أمر 
الرسول الكريم أصحابه بتدوينه أولاً بأول وكان ذلك عبر الخطاطة القديمة» ثم جمعه 
من بعد ذلك خلفاؤه الراشدون ونشروا نُسَحَهُ في البلاد التي وصل إليها الإسلام في 
زمنهم والتي غطت مساحات شاسعة من الأرض تسكنها أجناس شتى بألسنة شتى 
دخلوا في دين الإسلام ولا يتقنوا اللغة العربية بعد (وهم من اصطلح على تسميتهم 
بالأعاجم). وبطبيعة ال حال فقد كثرت وتواترت أخطاء هؤلاء المسلمون الأعاجم في 
قراءة القرآن (وهو calo‏ على تسميته باللّحْن) وكانت الخطاطة القديمة للعربية من 
اساب اللخ لدي حف كانت تب ال ركات الصوفية cà y el ual p‏ اهام 
فيخلطون بينها. ولما انتشر ذلك خاف العلماء ء على كتاب الإسلام من التحريف فأضيفت 
النقاط للتمييز بين الحروف المتشابهة لتمييزها بصورة حاسمة كما نعرفها اليوم» وينسب 
ذلك العمل إلى «نصر بن عاصم الليثي»» ويبين الشكل رقم )۲-١(‏ أدناه نفس العبارة 
التي أوردناها كمثال في شكل رقم )١-١(‏ أعلاه لكنها خطوطة بنقط الحروف. 
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الترجمة وسيلة أساسية لتبادل الحضارات بين الشعوب على مر العصور 

الشّكل Y- Y‏ نفس العبارة في الشكل السابق» ولكنها خطوطة بالنقاط لتقليل الالتباس. 

ds‏ حين أن نقاط (نصر ب بعاصم اكد حسمت الالباس إن رسع خروف ا 
فقد بقي اللحن نتيجة الخلط بين ال حركات الصوتية ة لكل من هذه الحروف» وذلك ما 
أزاله اللغوي الشهير «أبو الأسود UE‏ بحل ناجع يتمثل في وضع blä‏ إضافية فوق 
أو تحت كل حرف للدلالة على الحركة الصوتية المصاحبة له وسمى تلك النقاط «نقاط 
الإعراب» (والإعراب هنا لا يقصد به ما نصطلح عليه اليوم من إبانة موقع الكلمة 
النحوي» ولكنه قصد به آنذاك إبانة الحركة الصوتية المصاحبة لكل حرف). 

وبعد ذلك بعقود قليلة قام أستاذ أساتذة اللغة العربية في عصره «الخليل بن أحمد 
الفراهيدي C ce aT‏ بتحسين رسم «نقاط الإعراب» التي وضعها «أبو الأسود 
الدؤلي» وأبدها بعلامات التشكيل (أو الضبط) الصوتي التي نعرفها اليوم من فتحة 
وكسرة وضمة وسكون» فضلاً عن أنه أضاف على عمل «نصر بن عاصم» علامة تدل 
على تضعيف ا حرف (الشدة) s‏ 5 ا همزة. 

وجعلت الخطاطة العربية بعد إضافات «الخليل ابن أحمد» النص العربي المكتوب 
-وخصوصًا القرآن الكريم- يسير القراءة واستبعدت إلى حد بعيد حالات الالتباس 
فيه. واستمر تلامذة الخليل في إضافة تحسينات تكميلية (كعلامات الوقف» والوصل» 
cally‏ والإدغام ... إلخ) على رسم القرآن الكريم حتى بلغ ذروته في كال الضبط 
بنهايات القرن الثالث ال هجري حين بدا المصحف الشريف على الهيئة التي نألفها اليوم 
(انظر شكل رقم ۳-١‏ أدناه) حيث تشتمل خطاطة النص القرآني في المصحف (وهي ما 
نعرفها اليوم بالرسم العثماني) على كل الرموز اللازمة لتمكين القارئ من تلاوة القرآن 
الكريم كما أنزل على الرسول الكريم محمد صل الله عليه وسلم. 











-١‏ جدير بالذكر أن «الخليل» قد تتلمذ على يديه كبار المشاهير من أساطين العربية ومنهم GL‏ و«الأَصْمَعِيّ) 
و«الكسائىٌ» و«النضر بن شَمَيْل) ... وغيرهم 
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الشّكل :"-١‏ عينة من نص القرآن الكريم مخطوطة بالرسم العثماني. 

ومع صعود الحضارة الإسلامية وقيام دوها العظمى المتعاقبة من العباسيين إلى 
العثمانيين مرورًا le‏ بينهماء فإن النشاط الإداري والسياسي وكذلك النهضة العلمية 
والثقافية جعلت جميعها من التدوين والتوثيق لاسو (icc P‏ 
الخطاطة العربية قد نالت حظًا Ghe‏ من الاهتمام وظهر مفهوم «الخطوط [coti M)‏ 
الأبناط (fonts‏ حيث يمثل كل Ús bi‏ مطردًا e jik‏ بقواعد الخطاطة العربية العامة 
a‏ عليهاء ويتميز في الوقت نفسه بجماليات خاصة به تفيد أغراضًا معينة سواء كانت 
الزخرفة والتشكيل (مثل eden‏ والديواني؛ انظر الشكل رقم 5-١‏ أدناه)» أو الإيحاء 
بالعراقة والأصالة (مثل iQ SE‏ أو الرشاقة والوضوح والمعيارية ible)‏ خطوط 
النسخ؛ انظر الشكل 5-١‏ أدناه)» أو السهولة والسرعة (خط الرقعة؛ انظر الشكل رقم 
١‏ -5 أدناه) ... إلخ. 


—-YNY- 
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الشكل ::-١‏ عينة زخرفية من الخط الديواني. 


خطوط النسخ هي أكثر الخطوط العربية شيوعا في المطبوعات 


وهي جحمع بين سهولة القراءة وجمال الشكل وقابلية الطباعة 
وتضم هذه العائلة من الخطوط العديد من الأفراد (S‏ في هذا المثال 
الشكل :5-١‏ عينة من خطوط النسخ. 
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دستب po‏ الرقئعة OV LO aL JI y Er‏ 
ey‏ به بغ في التصف OK‏ سم القرں الع رن ١‏ حجري 
قوضع or AA)‏ قواعر bo‏ وأسس اة 


ED,‏ طیں ١‏ ائيس الير 
اللو فى Po ee LL‏ 
رخاصة الأطاط مرعزت 


الشكل :5-١‏ عينة من خط الرقعة. 





-Y‏ تاريخ حوسبة الخطاطة العربية 

يمكن النظر لحوسبة خطاطة اللغة بصفة iole‏ على أنها امتداد لسالفاتها من التقنيات 
الأقدم في هذا الصدد وهي الآلات الكاتبة الكهربائية ومن قبلها الميكانيكية ومن قبله| 
تقنيات الطباعة بأجياها المتعاقبة. ومنذ بداية رحلة العالم مع الطباعة لم تكن اللغة العربية 
في هذا الصدد متخلفة عن نظيراتها من اللغات الأوروبية» فقد أدخل العثانيون آليات 
الطباعة مبكرًا إلى حاضرتهم المركزية «الآستانة» في النصف الثاني من القرن الخامس 
عشر» وهناك خلاف عم إذا كانوا سبقوا إليها بشكل مستقل أو نقلوها عن الأوروبيين 
الألمان (حيث استطاع «جوتنبرج» إنشاء أول مطبعة في Ce)‏ عام /514١م)»‏ وبغض 
النظر عن ذلك فإن الأمر المهم هو أن العثمانيين وقتذاك كانوا يخطون اللغة التركية (لغة 
دولتهم المركزية الرسمية) بالحرف العربي (واستمر ذلك حتى ثلاثينات القرن العشرين 
الميلادي) كما أن اللغة العربية نفسها كانت لغة سائدة في العلم والثقافة يتقنها جل 
المتعلمين الأتراك. 
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ودخلت عملية الطباعة إلى العالم العربي مع بدايات القرن التاسع عشر الميلادي في 
مصر وبلاد الشام» وأخذت من ذلك الوقت في الانتشار والتوسع؛ ومن مظاهر ذلك 
مثلاً إنشاء محمد علي باشا الكبير» للمطابع الأميرية في مصرء ثم تواصلت مواكبة نسخ 
وطباعة الخط العربي بعد ذلك لكل تطور في هذا المجال حتى وصلنا لعصر الحاسبات 
الرقمية في النصف الثاني من القرن العشرين الميلادي حيث لم تكن الخطاطة 
العربية أقل استعدادًا من أية لغة كبرى أخرى للرقمنة والحوسبة. وعلى الرغم 
من ذلك فقد تأخرت حوسبة الخطاطة العربية بشكل مستقر ومقبول إلى iole‏ 
oe‏ وبداية تسعينات القرن العشرين الميلادي! ونرى أنه من اهام إفساح 
المساحة في هذا المقام لإزالة بعض الأوهام والالتباسات التي شاعت بأن هذا 
التأخر كان بسبب قصور وتعقيد في الخطاطة العربية أو بسبب تقصير 
وعجز علماء ومهندمي الحوسبة العرب. 

ظهرت بواكير الحاسبات الإلكترونية الرقمية في أربعينات وخسينات القرن 
العشرين الميلادي في الولايات المتحدة الأمريكية» وكانت d»;‏ أجهزة باهظة 
التكاليف هائلة الحجم (قد يشغل الواحد منها مبنى بأكمله) معقدة التشغيل وفي بعض 
الأحيان سرية التفاصيل» ومع ذلك فإن أرفعها Fol‏ كان ذا إمكانات حسابية أقل من 
الآلات الحاسبة في أيامنا هذه! وكان تفاعل هذه الأجهزة مع مشغليها من المهندسين 
المتخصصين محدودًا وكان من البديبي أن يكون هذا التفاعل عبر اللغة الإنجليزية. وفي 
النقدين cil‏ أعذت cols]‏ راع اة هذه e‏ ن القصياصد رشك Yoda‏ 
(وإن ظل أقواها أضعف كثيرًا من أقل حاسب شخصى في أيامنا هذه) eus‏ أخذ الطلب 
على تطبيقاتها في مجالات الإدارة والهندسة والتنظيم فضلاً عن البحث العلمي في البروز 
والتنامي» ومع ذلك ظلت ضخمة الحجم (يشغل الواحد منها قاعة كبيرة ويستخدم 
طاقة كهربية هائلة) باهظة التكلفة» وعلى ذلك شرعت شركات - مثل «آي بي إم) 
الأمريكية - في تصنيع أعداد محدودة منها لبيعها بشكل تجاري إلى كبريات المؤسسات 
المصرفية والصناعية والحكومية والبحثية» ولما كان تشغيلها ما يزال يحتاج إلى خبراء 
ذوي تأهيل هندسي متخصص - وهم يتقنون الإنجليزية بطبيعة OB - JLH‏ انفراد 
اللغة الإنجليزية بواجهات استخدام برمجيات تلك الحاسبات ظل أمرًا مقبولاً بعيدًا 
عن الانتقاد والجدل. 


—-Yo- 
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تغير المشهد جذريًا بعد تصنيع وشيوع المشغلات الدقيقة للحاسبات «المايكرُو- 
(Microprocessor) (y goms s y‏ على نطاق واسع مطلع الشانينات حيث شاعت 
حاسباتٌ صغيرة للألعاب وللتطبيقات البسيطة بين عموم الناس وخاصة الشباب 
(ومن أشهرها في ذلك الوقت تلك التي أطلقتها شركة «أَنَارِي»» وشركة «سينكلير»)» 
ورغم أن تلك الحاسبات التي ارتكزت على الأجيال الأولى من المشغلات الدقيقة 
كانت ذات إمكانات بدائية جدًّا مقارنة بالحاسبات الشخصية في أيامنا هذه 
Lb‏ لاقت رواجم هائلاً بين الشباب في ذلك الوقت حيث كانت مدخلهم 
إلى dle‏ رقمي جديد ساحر باهر. وعند هذه النقطة بدأ الالتفات إلى مسألة اللغة التي 
تتفاعل بها برمجيات تلك الحاسبات مع مستخدميها الذين لم يكن جميعهم بالضرورة 
يتقنون الإنجليزية» ونشأ sace‏ الطلب على استخدام اللغات المحلية للأسواق التي 
تنتشر بها أعداد كبيرة من مستخدمى تلك الحاسبات وكانت العربية من بين تلك 
اللغات. l‏ 
ماعو حر قلي هاا الب نهر الاب ا ال ا ا 
١‏ المحدودية الشديدة لقدرات ذاكرة تلك الحاسبات de y‏ (تراوحت بين ثائية 
آلاف كلمة إلى خمسة وستين آلف كلمة كحد أقصى) مما يعنى أن كل cols JI‏ 
العاملة وبياناتها في آن واحد As ali aaa ag Y‏ 
وكان حيز الكلمات الرقمية التي تستخدم لتمثيل عناصر المعلومات - ومنها 
الحروف - ضيقةً tie‏ بدأت بأربعة أرقام ثنائية وهو ما يسمح فقط بستة 
عشر رمرًا Út‏ (اثنين مرفوعة لأس أربعة) وفي وقت JU‏ وصل حيز الكلمة 
الرقمية إلى ستة أرقام ثنائية Ut‏ يسمح فقط بأربعة وستين رمرًا (اثنين مرفوعة 
لأس ستة)» وهذا بالكاد يستوعب الرموز المطلوبة للغة واحدة (كالإنجليزية 
Oa‏ إضافة إلى رموز تحكم ضرورية أخرىء ما يعني صعوبة استيعاب أكثر من 
لغة معًا في آن واحد. 
۲. ارتباط البرمجيات (السوفت-وير) É pàs‏ واعتمادها مباشرةً على عتاد (هازد- 
وير) تلك الحاسبات وتشكيله معًا منتجًا واحدًا تقوم بتصنيعه نفس الشركة» 
وبالتالي فإن تغيير لغة تفاعل تلك البرمجيات كان يحتاج إلى تعديل المنتج وخط 
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إنتاجه. فإذا كان للشركة المنتجة وقتها أن تدعم عدد س من اللغات فإنه كان 
عليها أن تقيم وتدير س من خطوط الإنتاج لما تبنيه من حواسب بعتادها 
وبرمجياتها وهو أمر ليس باليسير. 
LY‏ انغلاق أنظمة هذه الحاسبات وبتاها أمام المطورين من خارج الشركات المصنعة 
Ut LU‏ جعل من العسير عليهم أن يعدلوا برمجيات تلك الحاسبات. 
مع بداية النصف الثاني من ثانينات القرن العشرين الميلادي وقعت تطورات هامة في 
عالم الحاسبات الصغيرة حيث صارت المشغلات الدقيقة بكلمات يبلغ حيزها ثانية أرقام 
ثنائية هى السائدة مقابل أسعار Jas‏ وبدأ خطان متوازيان في صناعة الحاسبات 
الصغيرة؛ فنشأت شركة (Apple) ÉD‏ الأمريكية وصنعت حاسبات الاك 
الصغيرة بنظام تشغيل متماسك «ماك-أو-إسٌ» يفصل الارتباط العضوي بين العتاد 
وبين البرمجيات» كما طورت الشركة برمجيات تميزت في عالم الرسوميات «الجرافيكس» 
وتنسيق المطبوعات وإعدادها للنشر والطباعة فيا عرف وقتها باسم «النشر المكتبي»» 
ونجحت في نقل عالم نشر الصحف والمجلات من عصر الميكنة إلى عصر ال حوسبة» 
وأمكن الاستجابة للطلب على إتاحة هذا النشر المكتبي بلغات العالم الكبرى المختلفة» 
s‏ أقل من سنتين كان النشر المكتبي بالخط العربي متاحًا بصورة جيدة على هذا النوع 
من الحاسبات مدعومًا بسوق الصحافة الخليجية السخى. أما على الخط الموازي AY‏ 
ولكن على نطاق انتشار أوسع كثيرًا طرحت «آي-بي-إم» العملاق الأمريكي في 
عالم صناعة الحاسبات حاسيّها الصغيرَ تحت اسم «الحاسب الشخصي» Personal)‏ 
(Computer- PC‏ بسعر P olds‏ وألقت وراءه ثقلها إدراكًا منها أن مستقبل سوق 
الحاسبات سوف تسيطر عليه الحاسبات الصغيرة وليست العملاقة. وحقق هذا النوع 
من الحاسبات الذي كان يعمل على مشغلات دقيقة من شركة «ep‏ بكلمات يبلغ 





Y‏ كانت هناك أيضًا في ذلك الوقت مشغلات دقيقة بكلمات يبلغ حيزها ستة عشر رقا SU‏ لكنها باهظة الثمن كانت 
تبنى عليها حاسبات أرفع lol‏ تستخدم في تطبيقات متخصصة لكنها باهظة الثمن كانت يسمى كل منها "محطة عمل 
."Work Station‏ 

؟- الماكينتوش نوع من التفاح المنتشر في أمريكا الشالية. 

“- كان يمكن شراؤه بأقل من ألف وحمسمئة دولار أمريكي في حدود عام ۱۹۸۷م انخفضت لا دون الألف دولار 
أمريكي بنهاية ذلك العقد. 


-/اا ب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
mmm————— 0.‏ 


حيزها ثانية أرقام ثنائية نجاحًا Wla‏ وبيعت منه ملايين الوحدات» وكان من أسباب 
نجاحه تزويده بنظام تشغيل «دُوسٌ») (DOS)‏ من شركة «مايكروسوفت» حيث كان 
نظامًا مفتوحًا كرس مبداً الفصل بين تطوير البرمجيات وبين تصنيع العتاد في مثل ذلك 
النوع من الحاسبات الصغيرة فسمح بذلك للمطورين من خارج كلتا الشركتين بتطوير 
برمجيات هذه الحاسبات. وضمن هذا المناخ شرعت شركات عربية في محاولات إنتاج 
برمجيات عربية لتلك الحاسبات وشرعت أخرى في محاولة تعريب بعض البرمجيات 
الشهيرة ولاقت تلك المحاولات نجاحًا أثبت أن التعريب أمرٌ ممكن. 


وبعد عام ۱۹۹۰م حين طرحت «مايكُروسُوفت» نظام تشغيلها «ويندوز - الإصدار 
٠,١‏ بواجهة تشغيل رسومية ارتفعت موجة انتشار الحاسبات الشخصية لتشمل كل 
نواحي العالم تقريبًا ولتحتكر «مايكروسوفت» سوق أنظمة التشغيل هذا النوع من 
الحاسبات الذي كانت إمكاناته الحاسوبية بحلول ذلك الوقت قد ارتقت كثيرًا ما دفع 
«مايكروسوفت» لطرح ملحقات لنظام تشغيلها تدعم لغات العام المختلفة ومن بينها 
العربية سواء في واجهة استخدام نظام التشغيل أو في برامجها المكتبية - خاصة برنامجها 
الأشهر لكتابة الوثائق وتنسيقها 5559 | عرضًا على الشاشة وطباعة على الورق. 
وبطبيعة ا حال لم يخل الأمر في البداية من بعض المشكلات والمنغصات الحامشية التي 
Lotes c‏ تدر عا مع الإصدارات التالية المتلاحقة لنظام التشغيل «ويندوز». 

والآنء وبعد شيوع معيار «التظام ا Je SM‏ لشفرات 2-1 , 3 (Unicode) t‏ ذي الستة 
عشر ELG‏ لتمثيل النصوص والذي يتسع لحروف معظم لغات العا المعاصرة واسعة 
التداول (ومن بينها العربية بالطبع)» فإن الحرف العربي مدعوم بسلاسة وبشكل تلقائي 
ادون الحاجة لتنصيب ملحقات - على كافة أنواع الحاسبات تقريبًا سواءً أكانت الأجيال 
المتقدمة من الحاسبات الشخصية IM iuo‏ الحواسب الكفية المدمجة مع الأجيال الحديثة 
من ال هواتف النقالة» وغير ذلك من الأصناف المتعددة للحاسبات. 

وتجب الإشارة في ختام هذا الاستعراض التاريخي إلى أن ميكنة وحوسبة الخطاطة 
العربية كانت كلتاهما وما زالتا تتعاملان في مسارهما الرئيسي أساسًا مع الخطوط العربية 
المتتظمة» ونعني بها تلك الخطوط التي تنساب كتابتها في اتجاه واحد؛ وهو الاتجاه Cal‏ 
من اليمين إلى اليسار» وفي نفس الوقت تسمح برسم أي نص عرب عبر انتقاء سلسلة 


A 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


من الوحدات التي تنتمي إلى فئة مغلقة من الوحدات الرسومية «الجرافييات». وفي حين 
OD ci ll e al aea CR ll Ln o‏ إشنانة الوضوع و الجازية زليه جيل 
خطوط النسخ البسيطة (راجع الشكل رقم ١‏ -0) هي محل التركيز الأكبر هذه الصناعة. 


-Y‏ تحديات الخطاطة العربية التي تواجه التعرف عليها آل 

بعد الاستعراض التاريخي لنشأة الخطاطة العربية ثم ميكنتها وحوسبتهاء نقوم في 
يلي بالتدقيق في بعض تفاصيل هذه الخطاطة التي تشكل تحديات ينبغي على أي نظام 
ناجح للتعرف الآلي على النص العربي المكتوب أن يعالجها بفعالية. 


. اتصال الحروف: يمكن كتابة اللغات الأوروبية بحروف منفصلة (وهى السائدة 


في النسخ والطباعة لبساطتها) أو بحروف متصلة (وتستخدم كثيرًا عند الكتابة 
بخط اليد)» في حين أن لغات أمم كبرى في أقصى شرق آسيا (كالصينية واليابانية 
والكوزية) حط ls‏ با حرف المنفضلء UT‏ المخطاطة العربية (ويشاركها فى ذلك 
البنغالية وال هندية) فتكْتّب دات بالحرف المتصل. 


ومن وجهة نظر أية آلية حاسوبية للتعرف على الأناط الرسومية» فإنه مع 
تثبيت جميع الظروف الأخرى يكون التعرف على BEYI‏ وهي منفصلة أيسر 
من التعرف عليها وهي متصلة ببعضها البعض» حيث يتوجب في حالة 
الاتصال حل مسألة تعيين حدود كل رمز رسومي «جرافيم» (وهو ما يطلق 
عليه الباحثون في هذا المجال اسم «التقطيع» ((segmentation)‏ ضاف بالطبع 
إلى مسألة «التعرف» (recognition)‏ على الحرف الذي يرمز إليه كل جرافيم 
وکا يمكن استشفافه من الشكل رقم )۷-١(‏ أدناه» فإن التعرف الصحيح على 
الرموز يتطلب تعيين حدودها بشكل سليم» ولكن تعيين هذه الحدود بدوره 
يتطلب معرفة الرموز أولا! 


Z- 
A 


وهكذاء فإنه لا مفر من حل كلتا المسألتين («التعرف» و «التقطيع») | pA]‏ 
ااي ا ا RUE‏ 
عن أساليب تحقيق ذلك. بقى أن asy‏ ثانية عل أن bobt‏ العربية i lll‏ 
حسمن التعريف الذي أورداه اي الق السا هي تلك الى بسكن Gus‏ 


-۲۹- 


١ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ا 


حدود وفواصل واضحة بين جرافياتها eas‏ لا يمكن عمل ذلك مع الخطوط 
غير المتتظمة؛ مثل تلك الزخرفية (راجع شكل رقم ٤-١‏ أعلاه). 


الترجمة وسيلة أساسية لتبادل الحضارات بين الشعوب على مر العصور 
الشّكل :۷-١‏ الاتصال الأفقي بين الحروف المتتالية في خطوط النسخ وتعيين حدوده. 

؟. التداخل بين حدود الحرافميات: مما يزيد من التحدي السالف عرضه في 

النقطة السابقة أننا نرى أحيانًا بعض التداخل (أو التراكب) الطفيف بين حدود 

coe ya‏ بعض الخطوط العربية المنتظمة كا يمثل له الشكل رقم CA D‏ أدناه. 








الشكل A Y‏ مثال على التراكب بين الحروف المتتالية. 


للكتابة متصلة الحروف» ويؤدي هذا التغير إلى زيادة كبيرة عدد الرموز 
الرسومية التي يتوجب أن يتعامل معها أي نظام للتعرف JYI‏ على النص 
العربي المكتوب بالمقارنة مثلاً مع اللغات الأوروبية التي LË‏ عند طباعتها عادة 
ومن وجهة نظر أية آلية حاسوبية للتعرف على DEYI‏ الرسومية» فإنه مع تثبيت 
جنيع الظروف الأخرى يكون التعرف أكثر دقة كلما قلت عدد الأنماط الرسومية 
الخ والعكين الکن 
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E NICA.‏ اختلاف رسم الحرف العربي مع اختلاف موقعه من الكلمة. 


EIC 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


4. الجرافييات _المركبة من أكثر من حرف واحد: الكثير من خطوط النسخ 
cett‏ الالال SEKE‏ وطاق الكاي العري الو ينها 
hA‏ الذي LS‏ به هذا الكتاب) تحتوي على العديد من الجرافييات المركبة من 
حرفين أو ثلاثة (والتي لا يمكن التعامل معها إلا كوحدة رسومية واحدة)» 
ويبين شكل رقم OY 7 D‏ أدناه أمثلة على بعض هذه الجرافميات المركبة. 
وعلاوة على ما أشرنا إليه في النقطة السابقة» فإن هذه الجرافييات المركبة ترفع 
عدد BIYI‏ الرسومية التي يتوجب على أي نظام للتعرف على النص المكتوب 
التعامل معها Ut‏ يرفع درجة الصعوبة» وإذا كانت الخطاطة الإنجليزية | على 
سبيل المثال - في هذا الصدد قد تكتفي بحوالي ثانين جرافيًا فإن العربية تحتاج 
إلى ما يزيد على مئة وتسعين. 








الشّكل :٠١-١‏ أمثلة على جرافيمات مركبة من أكثر من حرف في أحد خطوط النسخ. 

ه. التقط: كلما كانت الفروق الشكلية بين الأنماط الرسومية أكبر» فإنه مع تثبيت 
جميع الظروف الأخرى ترتفع قدرة أي نظام للتعرف JYI‏ عليها. as‏ أن نسبة 
كبيرة من جرافييات الخطاطة العربية متشابهة شكليًا إلى حد بعيد ولا تتمايز إلا 
بوجود أو غياب النقاط - أو ال همزة في بعض الأحيان | op‏ ذلك بالتأكيد يرفع 
التحدي أمام أي نظام للتعرف الآلي على النص العربي المكتوب. 


الشّكل :١1-١‏ أمثلة على مجموعات الحروف العربية التي تتمايز بالنقاط. 

5. علامات الضبط الصوتي (التشكيل): تعتبر علامات التشكيل في الخطاطة 
العربية تعقيدًا إضافيًا أمام أي نظام للتعرف JYI‏ على النص العربي المكتوب 
وذلك لأا لاتقع في سياق تسلسل أفقي مثل الحرافييات الحجائية ولكنها في 
مواضع رأسية فوقها أو تحتها S)‏ يبين شكل رقم ١١-١‏ أدناه). 





Ed 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


ولذلك فإن مثل هذه الأنظمة تتعامل مع علامات التشكيل إما بمحاولة 
اكتشافها مبكرًا ثم حذفها قبل عملية التعرف على النص المكتوب» أو 
بتجاهلها على اعتبار أن الكتابة العربية المعاصرة نادرًا ما تضاف إليها هذه 
العلامات إلا لأغراض تعليمية أو عند اقتباس النصوص الدينية أو التراثية. 
Fossa tds fis cud 2 ans m.‏ 3.2 
iac i‏ وسيلة أساسية 303 الحضارات بين الشعوب 


الشكل Jia Y Y- Y‏ على عبارة عربية بعلامات الضبط الصوت الكامل. 


مم 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


المبحث الثاني 
أنواع ! ern Ty‏ 
على النص العَرَبِيٌ المكتوب 


اتف bl‏ اكا leti‏ امن goet glo‏ 
-Y‏ تطبيقات التعرف JYI‏ على النص العربي المكتوب. 


E irt 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقياً أو تداولها botes‏ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


paaa ES 
bcc - حاسويًا‎ uli e الكتابة ومن‎ DE) (X25 Ty 
أدناه:‎ CY - D إنتاج الكفابة اة وذللك وى اللخطط الذي يلخصه الشكل رقم‎ 








الشّكل 1-١‏ : تصنيف أنماط إنتاج الكتابة حسب التعامل معها حاسوييًا. 


op cou ال ا‎ ME 
إلخ» ويتم هذا التعقب عبر تعبين والتقاط الموضع النسبي لليد‎ . DENT 
كل لحظة”" وإرسايها إلى ذاكرة الحاسب ويشكل تتابع هذه‎ iui على اللوح الحساس‎ 
أدناه» وهو ما‎ )١5-١( للكتابة اليدوية كا يبينه الشكل رقم‎ C EaI اللقطات التمثيل‎ 
وهي المعلومة‎ (Writing Contours) يسمح بتكوين «المنحنيات المناظرة لمسار الكتابة)‎ 
الأساسية في عملية التعرف على هذه الكتابة.‎ 





-١‏ أي تحويلها من حالتها الأصلية «التناظرية cAnalog‏ إلى UL‏ «الرقمية (Digital‏ من أجل إدخاها ومعالجتها بواسطة 
الحاسبات الرقمية. 


Ben Urin اللقطات ترضم الاو عل اللرج اماي لكل‎ pacis رص عدة‎ eel elut 
تمثيلاً سسا للكتابة لا تفقد فيه تفاصيل حركة اليد.‎ 


—-Yo- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا ب n————X‏ 





الشّكل :١5-١‏ مثال على رقمنة الكتابة اليدوية أثناء كتابة كلمة «العبارة) 
وتمثل العقد الصغيرة مواضع اليد عند اللحظات التي جرى تسجيلّها. 
وقد تكون الكتابة اليدوية تدويئًا مسترسلاً بحروف متصلة كما في الكتابة العادية 
الحرة ة(كا في شكل رقم ١5-١‏ عاليّه) وهي ا حالة الأصعب في التعرف عليهاء أو تكون 


áx ونتناولٌ‎ dle حروف أو علامات منفصلة وهي الحالة الأيسر في التعرف‎ E 
التطبيقات المتصلة بكلتا الحالتين في القسم التالي.‎ 


وعلى الناحية الأخرى هناك الصفحات المحتوية على نصوص مكتوبة بالفعل» 
حيث يجري تحويل i‏ من هذه الصفحات إلى (صورة رقمية) (Digital Image)‏ عبر 
جهاز «الماسح الضوئي» (Scanner)‏ وني هذا الصدد OYI A gi‏ بالمعيار الأوسع قبولاً 
لعملية المسح الضوئي بتباين أحادي اللون (بالأبيض والأسود) وبتحليل طولي يساوي 
ستمئة نقطة في y JS‏ 2 طولية (أي ثلاثمئة وستين laxi call‏ في البوصّة المربّعة) O‏ 

;38 ن tad‏ الممسوضة bass uo‏ خط اليد انر سوك iss esl‏ 
مسترسلة بحروف متصلة LS)‏ يبين الشكل رقم ١5-١‏ أدناه مثالاً على ذلك) وهي 
الحالة الأصعب في التعرف عليهاء أو تكون مجرد حروف أو علامات منفصلة وهي 
الأيسر في التعرف عليهاء ونأتي على 53 بعض التطبيقات المتصلة بكلتا الحالتين في 


dl الب‎ 


١‏ - البوصة تساوي 7,54 سنتيمترًا تقريبًا. 
-Y‏ كان المعيار السابق هو ثلاثمئة نقطة في كل بوصة طولية (أي تسعين ألف نقطة في البوصة المربّعة). 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


الشّكل :١15-١‏ مثال على الصورة الرقمية الناتجة عن المسح الضوئي لصفحة تحتوي على كتابة بخط 
اليد وتمثل محتويات كل مربع صغير إحدى نقاط هذه الصورة الرقمية 
وعلى الناحية الأخرى قد يكون النص في الصفحة الممسوحة ضوتيا مطبوعا (S)‏ 
يبين الشكل ١5-١‏ أدناه مثالاً على ذلك) ويتصاعد تحدي التعرف على النص عندما 
تتعدد الخطوط (الأبناط) المستخدمة في طباعته e‏ إذا كان مطبوعًا بخط واحد فقط. 


العدل أساس املك 


الشّكل 15-١‏ : مثال على الصورة الرقمية الناتجة عن المسح الضوئي لصفحة تحتوي على نص 
مطبوع» وتمثل محتويات كل مربع صغير إحدى نقاط هذه الصورة الرقمية 
وبصفة عامة فإن التعرف الآلي على النصوص المخطوطة يدويًا أصعب كثيرًا من 
التعرف على النصوص المطبوعة» ونتناول بَعْضَ التطبيقات المنصلة بكلتا الخالتين 


في القسم التالي. 
-Y‏ تطبيقات التعرف الآلي على النص العربي المكتوب 


تكتسبُ تقنية التعرف الآلي على النص عبر تعقب حركة اليد أثناء الكتابة أهمية 
تاف Aj jl‏ متعاظمة تتناسب مع الانتشار (p‏ للأجيال الجديدة من الهواتف 
الذكية التى يحتوي معظمها على شاشات حساسة لِلمْس وكذلك انتشار «الحاسبات 
الاس ol kesy (Tablet Computers)‏ شاشات حساسة Wr‏ وذلك 
حيث أن هناك Cs‏ إلى استبعاد لوحة المفاتيح من تصميم هذه الأجهزة واستخدام 
اللمس بالأصابع أو بقلم حصوص للتفاعل معها وإدخال البيانات إليها. ويتفاوت 
التحدي في التعرف على هذه البيانات بدءًا من لمس أحد الخيارات المتعددة» مرورًا 
بكتابة جرد علامة أو حرف أو رقم منفصل» وصعودًا إلى الكتابة الحرة المسترسلة 
بحروف متصلة. ويلاحظ أن برمجيات التعرف على هذه الأنواع من البيانات غالبًا 
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هذه الطبعة إهداء من المركز 
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ما تحتوي على أدواتٍ مساعِدة للمستخدم تمكنه من التحقق من صحة التعرف على 
ما يكتبه والتدخل لتصويبه عند اللزوم» بل SES cs e‏ هذه البرمجيات أحيانًا آلياتِ 
تدقيقٍ إملائي لتوجيه عملية التعرف أو لتصويب ما جرى التعرف عليه من كتابة 
عربية مسترسلة بحروف متصلة» کا آنا تتضمن أدواتٍ «للتكيف) (Adaptation)‏ 
ند خط c M ada ns S ae y cete‏ للارتقاء بأداء التعرف على 
هذا النوع من الكتابة إلى مستوّى 2 (S2‏ المستخدم. [A V c£]‏ 

Sa?‏ - إضافة إلى ما سبق - الإشارة إلى التطبيقات التعليمية والتربوية لهذه 
x‏ من colat s‏ التعرف E‏ عل uo eal‏ يعي edid‏ ق الساعدة els de‏ 
كتابة اللغة للنشء أو للكبار أو على تحسين الخط؛ حيث تعرض مثل هذه okei‏ 
مسارات الكتابة اليدوية النموذجية لأمثلة من النصوص وتطلب من المستخدم أن 
يتتبع هذه المسارات بقلم خصوص في يده على لوح حساس لِلَّمْس أثناءَ مرحلة 
التدزّبِء كا يُطْلَّبِ أثناءَ مرحلة تقويم الأداء من المستخدم أن يخط على اللوح 
الحساس أمثلة نصيةء ومن نَّمَّ تقوم هذه البرمجياتٌ بمقارّنة مسارات الكتابة اليدوية 
للمستخدم مع المسارات النموذجية لكتابة أمثلة التدريب أو تقويم الأداء ويناءً على 
نتيجة المقارّنة يفاد المتعلم بالتصحيحات المطلوبة لتحسين أدائه EVI‏ 

أما على جانب تقنيات التعرف على الكتابة المسترسلة في الصفحات الممسوحة 
ضوئيًا سواء أكانت مخطوطة باليد أم مطبوعة» فإن التطبيق الأسامي ها هو العمل 
على الرقمنة الآلية لتراث البشرية الضخم من المواد النصية الموجودة بالفعل على 
الأوراق”" مقابلٌ تكلفة مالية وزمنية وإدارية أقل كثيرًا مما يستغرقه إنجازٌ تلك 
الرقمنة بأيادي جيوش من «الضاربين على لوحات المفاتيح» (Typists)‏ وتوفر 
رقمنة هذا التراث النصي مزايا كبرى تتمثل في: 





-١‏ من أمثلة المشروعات الكبرى في هذا الصدد «مشروع رقمنة المليون كتاب» الذي تقوم عليه شركة «جوجل»؛ انظر 
المرجع رقم E]‏ من مراجع هذا المبحث. 
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.١‏ إمكانية المحافظة على الوثائق إلكترونيًا بتكلفة ضئيلة جدًا بالمقارنة مع تكلفة 
حفظها OG s‏ ولمدة أطول بكثير من عمر هذه الوثائق في صورتها الورقية 
يمكن أن تصل إلى ما شاء الله؛ حيث يمكن نقل الوثيقة من وسيط QUE‏ 
إلكترونقٌ قديم إلى آخر جديد دون فقدان أي شيء من ممتوياتها قبل انتهاء 
العمر الافتراضي للوسيط القديم» وباحتمالات ضياع متضائلة إلى ما شاء؛ 
حيث يمكن استنساخ الوثيقة إلكترونيًا عددًا غير حدود من المرات على وسائط 
تخزين متعددة LAŽ‏ في أماكن Diaz‏ 

بودي ad‏ اراق apo dE‏ ونم عر oce‏ وكا اقم Mod‏ بعد 
ذلك إلى نصوص رقمية عبر تقنيات التعرف الآلي على النصوص إلى إمكانية 
تشغيل تقنيات ible‏ النصوص على محتويات هذه الوثائق وخصوصًا 
تلك التي تستخلص المعلومات وتستنبط المعرفة من الأوعية النصية؛ ومن 
RI‏ وکات البحث النصي» (Text Search Engine)‏ و«استرجاع 
البيانات») (Information Retrieval- IR)‏ فضلاً عن «التنقيب المعلوماتي 
في النصوص» UIS p (Text Mining)‏ «تصنيف Document) ( sU Jl‏ 


(Document) Summarization (eses; (Classification‏ وقد 





Y‏ - بأسعار نهاية عام 7١١١م‏ يتكلف القرص الصلب الخارجي سعة تخزين واحد Vai‏ (مليون مليون) بايث حوالي خمسين 
دولارًا أمريكيًا وبافتراض أن الكتاب متوسط الحجم يحتاج سعة مئة Usa‏ (مئة مليون) بايت لتخزينه بم فيه من صور 
بدرجة عالية الجودة وبعمر افتراضي لا يقل عن خمس سنوات تحت ظروف قاسية» فإن هذا القرص يسع لتخزين 
لعشرة آلاف كتاب وهذا يعني أن الكتاب الواحد يتكلف نصف سنت أمريكي. وعلى الجانب الآخر فإن المتر المربع 
السطحي في غرفة مكتبة مجهزة على مستوى جيد يتكلف في نفس التاريخ ما لا يقل عن مئتين وخمسين دولارًا في العام 
ويسع ما لا يزيد عن Call‏ كتاب من نفس الحجم وهو ما يعني أن الكتاب الورقي يتكلف تخزينه لمدة مس سنوات في 
حالة جيدة حوالي مئة وخمسة وعشرين سنتا أمريكيًا أي مئتين وخمسين ضعف التكلفة الإلكترونية. هذا مع ملاحظة 
أن تكلفة الحفاظ على المخطوطات التاريخية تتجاوز ذلك بكثير نظرًا لاحتياجها إلى تجهيزات خاصة تحافظ على مادتها 
dios‏ مع مرور الزمن. 

۲- من الإنصاف أن ننتبة إلى قضية التحقق من «أصالة SU JI CAuthenticity‏ الرقمية حيث لا توجد حتى الآن - رغم 
الأبحاث الجارية على هذه المسألة - وسيلةٌ حاسمة للتأكد من عدم التلاعب إلكترونيًا بمحتويات الوثيقة المرقمنة 
سوى المطايّقة بجسم الوثيقة الأصلية! 

DÍ سواها) إلى اكتشاف‎ el آليات التنقيب المعلوماتي بصفة عامة في أي وعاء للبيانات (سواء أكانت نصوصًا‎ aus Y 
التكرار والارتباط السائدة بين مفردات هذه البيانات ما ينبئ عن احتمال قوي لوجود معلومة يعبر عنها هذا النمط أو‎ 
قوية لتحويل البيانات (كادة خام قليلة الفائدة) إلى معلومات (عالية القيمة).‎ lol لذلك‎ Sas ذاكء‎ 
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É cá‏ هذه التقنيات مع أدوات أخرى تقليدية لإدارة البيانات والمعلومات 
ضمن أنظمة متكاملة eaa‏ على تسميتها في Kall‏ ١نْظم‏ إدارة الوثائق» 
.(Document Management Systems- DMS)‏ 
۳. ومن LAYI‏ بمكانٍ فيا يتعلق برقمنة نصوص الوثائق أن نضع الأداء البشري 
على حك المقارّنة بمستويات الأداء الراهن لتقنيات التعرف QVI‏ على النصوص 
العربية المكتوبة من الوثائق الممسوحة ضوتا. فالضارب المحترف عل لوحة 
المفاتيح يستطيع في المتوسط ecd‏ حوالي ستين كلمة عربية في الدقيقة الواحدة 
بمعدل خطأ للكلمات (Word Error Rate: WER)‏ لا يتجاوز الثلاثة في المئة 
كما ESE‏ من خلال مراجعةٍ يدوية النزولُ بمعدل al‏ للكلمات إلى ما دونَ 
النصف في ال ئة“ ومع متوسط أجور لهذا النوع من العمالة - بمعدلات نهاية 
عام ١١١5م‏ - يبلغ نحو ذُولارَيْن أمريكيين في الساعة فإن التكلفة الزمنية 
لرقمنة ألف كلمة بجودة عالية تكون في حدود نصف ساعة عمل كما تكون 
التكلفة المالية لذلك في حدود دولارَيْن Dea pad‏ 
cux ul‏ التعرف JM‏ على النصوص ؛ فإن التكلفة الزمنية ليست عائقًا 
حعيث يتكفل B le‏ من التسارع المطّرد لقدرات الأجيال المتعاقبة من 
«المعالجات الدقيقة» (Microprocessors)‏ التى Jes‏ الحاسبات 
الرقميةء وكذلك إمكانية رَفْع سرعة التعرف على النصوص بالقدر المطلوب 
عبر أي من البتى المتعددة للحوسبة «الموزّعة» (Distributed Processing)‏ 
أو «المتوازية» (S. .XParallel Processing)‏ أن التكلفة المالية كذلك 
ليست عائقًا حيث أنه مهما ارتفعت تكاليف البحث والتطوير والتشغيل 





-١‏ هذا بافتراض حار الوثيقة الجاري نسحها - سواء أكانت مطبوعة أم مخطوطة باليد - من التشوهات أو الشوشرة 
البصرية العالية التي تؤدي إلى الالتباس في قراءة المحتويات النصية ها. 

-Y‏ هذا بافتراض العمل على كميات ضخمة من النصوص ضمن خط إنتاج تتوازى فيه عمليتا النسخ والمراجعة. 

-Y‏ وذلك i‏ ما يرف «بقانون مُورْ Moore's Law‏ وهو عبارةٌ عن استقراء عملي لواقع تطور الحواسيب مع الزمن 
وينص على تضاعف القدرات الحاسوبية - من معاجّة وتخزين ... إلخ - مرة كل ثانية عشر Des‏ تقريبًا. 

Gy -é‏ كانت البنية المورّعة أو المتوازية فإن المبدأ البسيط Lafl yg‏ هو تشغيل حواسيب عديدة بدلاً من حاسوب واحد فقط 
من أجل الانتهاء من نفس المسألة في زمن أقل.. 
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لأي نظام ناجح للتعرف الآلي على النصوصء فإن تكلفة التعرف على كل 
ألف كلمة تتضاء ءل باطراد في تناسب عكسي مع إجمالي النصوص التي جرى 
لتشغيل عليها. ويبقى العائق ى الحقيقي متمثّلاً في دقة التعرف EJ odd‏ 
حيث يعرض الجدولٌ رقم (۱-۱) أدناه هوام الخطأ للكلمات المقيسة 
لأفضل ما جرى تطويرٌه من أنظمة التعرف الآلي على النصوص العربية 
٠١ A Y]‏ آ ني ظل مستوياتٍ متدرّجةٍ من جودة الصورة الممسوحة ضوئيا 
وكذلك في ظل مستوياتٍ متدرجة من التنوع في الوحدات الرسومية للكتابة 
(أي «الجرافييات»)؛ ومن الواضح أن هامش الخطأ يتسع باطراد مع تصاعد 
مستوى «الشوشرة)» (Noise)‏ البصرية التي تشوب الصور كا يتسع هذا 
المامش مع تزايد التنوع والتباين في جرافييات الكتابة. 

f‏ . وتفيد الدراسات التى حللت أداء تقنيات استخلاص المعلومات واستنباط 
المعرقة - الشار إليها في الفقرة ب e‏ عند تشغيلها عل أوغية بها انتصوضن 
متدهورة») (Degraded Text)‏ (أي نصوص معيبة ذات نسبة BEA‏ من 
الأخطاء) أن مردود هذه التقنيات يظل فعالاً إذا لم تتجاوز نسبة التدهور الخمسة 
عشر في المئة ]٠[‏ (وترفع بعض الدراسات هذه النسبة إلى عشرين في M‏ مع 
ملاحظة أنه بعد إجراء عملية استخلاص المعلومات أو استنباط المعرفة التى 
E‏ الواردة في نتائج العملية لمطلوبة على 
هيئة الصورة الضوئية الممسوحة -و مى نسخة DUM‏ - وليس على هيئة 
النص الرقمى الذي جرى Tue‏ لاحتوائه على نسب الأخطاء فى à‏ 
القلاتاللقار إلبها. 

وعلى ذلك op‏ الحالات المظللة بالرمادي في الجدول هي فقط التي تصلح 
لتطبيق تقنيات استخلاص المعلومات واستنباط المعرفة عليها بفعالية 
Alea‏ 


-١‏ في حين يزعم بعض الباحثين أن أداء مثل تلك التقنيات قد لا ينهار بالكامل حتى مستوياتٍ خطأ عشوائية للكليات 
تبلغ الخمسين في Hl‏ 
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٠‏ طباعةليزر أو | صفحات | نسخ ضوئي | نسخ ضوئي مرتين 
e‏ الحودة وثيقة أصلية کتب لمرة واحدة أو صفحات جرائد 
جا جا جاو جو | جاو جو جاو جاو * 
وحجم واحد AY ^Y, o‏ 4 حوالي 7/١١5‏ 
* 
مطبوعة بمختلف b phl‏ 
والأحجام Yo AE: Zw‏ أكبر من LEO‏ 
جا جاو جاو 
خط d p sb‏ عي | E‏ 
aLa)‏ 5 5 
و l‏ على x‏ ا ا 
خط Jor SSI‏ 
/vo ٥ z kk‏ 
7Yo‏ 























الجدول :١-١‏ هوامش الخطأ المقيسة في أداء أفضل ما جرى تطويره - حتى نهاية ١١١٠م‏ - من 
أنظمة التعرف SI‏ على النصوص المكتوبة في صفحات G pd io gut‏ وذلك في ظل ظروف 
متدرجة من جودة الصور الممسوحة y G gob‏ وكذلك التنوع في جرافيمات الكتابة. 

eus .5‏ تزال محرّجاتٌ التعرف JYI‏ على النصوص العربية المخطوطة باليد 
في كل الحالات خارجَ إطار الاستفادة من تقنيات استخلاص المعلومات 
واستنباط المعرفة نظرًا للاتساع الكبير في هامش الخطأ بهاء فإن تركيز الأبحاث 
التطبيقية في هذا الصدد يتركز على إنجاز تطبيقات ضيقة النطاق؛ إما من جهة 
التقيد بحصيلة لغوية محدودة جدًا تحصر NIGRA‏ التعرف وتكفي 
لهام مثل التعرف على عناوين البريد أو قوائم مختصرة بأصناف سلع ... «gi‏ 
أو من جهة التقيد بالرموز والأرقام والعلامات والحروف المنفصلة في مهام 
مثل تصحيح الاختبارات الموضوعية أو قيمة الصكوك النقدية (أي «الشيكات 
(«Checks /Cheques‏ ... إلخ. 
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المبحث JÉN‏ 
أساليب التعرف الال على pal‏ 
العربيٌّ المكتوب 


. التعرف على النص المكتوب كأحد أنظمة التعرف على الأناط‎ - ١ 

؟- أساليب التعرف على الكتابة العربية بتعقب خط اليد. 

۳- أساليب التعرف على الكتابة العربية المطبوعة. 

-٤‏ أساليب التعرف على الكتابة العربية المخطوطة يدويًا. 

5- بناء الموارد اللغوية لتدريب وتقويم أنظمة التعرف على الكتابة العربية. 


دمع 
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DEYI التعرف على النص المكتوب كأحد أنظمة التعرف على‎ -١ 

تنتمي أنظمة التعرف الآلي على النص المكتوب إلى جال أرحب من علوم الحاسبات 
التطبيقية ألا وهو «التعرف JYI‏ على الأنماط» (Pattern Recognition)‏ ويمكن وضع 
المميكل الوظيفي eJ‏ النظم في الإطار العام المبين في الشكل رقم )١۷-١(‏ أدناه «D‏ 
حيث يتم تحويلٌ «الإشارات التناظرية» (Analog Signals)‏ المقابلة للأنماط المطلوب 
التعرف عليها (وهي النصوص المكتوبة/ المخطوطة في حالتنا هذه) إلى «إشارات 
رقمية» |S - (Digital Signals)‏ ورد خلال القسم الأول من المبحث السابق - ومن 
dog e‏ الحاسوب de‏ ثم يجري ID‏ ابتدائي» oib (Preprocessing)‏ الإشارات 
الرقمية (وذلك مثل استبعاد بعض الأنساق النمطية من الشوشرة)» ثم يتم بعد ذلك 
استخلاصٌ بصمات هذه الإشارات (أي مجموعة الصفات الرياضية (à zal‏ 

ويمتاز بعد ذلك مسار التدريب حيث يجري بناء ناذج رياضية (إحصائية غالبًا) من 
بصمات الإشارات المقابلة (M‏ عينات التدريب» ومن ثَمَّ يجري حفظ هذه النماذج 
بكفاءة في قاعدة بيانات لاستدعائها في إحدى آليات التصنيف التى تقرر أي BAI‏ 
هى الأقرب للإشارات المقابلة للأناط المدحخلة المراد التعرف عليها. 


ويعكس هذا الإطار نظرية «التعلم الحاسوبي» (Machine Learning)‏ التي 2s‏ 
كأنسب ما يكون من أجل مقارّبة المسائل التي لا يُعْرّف لها أو حيث يتعذر الحصول 
ها على «حلولٍ بقواعد (Closed Porin Solutions) à, S‏ وتنبثق مختلف أساليب 
التعلم الحاسوبي من مبدأ إمكانية التعلم عبر تكرار التعرض الغزير لكل من الأمثلة 
الصحيحة والأمثلة الخاطئة أو عبر تكرار التعرض الغزير للأسئلة وأجوبتها حول 
جزئيات المسألة المطلوب مقاربتها؛ فالطفل مثلاً قد يجيد قراءة النص المكتوب بلغته الأم 
قبل أن يتعلم أسس وقواعد اللغة وذلك عبر تقليد الأكبر سنا وعبر محاولات الصواب 
والخطأ مع تصويب الأخطاء حيث يتحسن الأداء مع معاودّة ذلك كله مرارًا وتكرارًا. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ا:6ة6ا ب n—————‏ 


الإهارات التاطرية 
uS Aud!‏ المراد 
التعرف عليها 


أرجح الأغاط المقابلة 
لاإهارات الدخلة 


الإشارات الاظرية 
المقابلة لأغاط التدريب 





الشكل 17-١‏ : الهيكل الوظيفي العام لأنظمة التعرف على الأنماط وفق نظرية التعلم الحاسوبي. 

ويرتكز بصفة عامة تفعيل تلك الأساليب رياضيًا وحاسوبيًا هذا المبدأ على استقراء 
السياق os YI‏ للكلمات وحروفها (المناظرة للأناط التي ندرسها في هذا الفصل) 
LA Se‏ عن سياقها اللغوي بُعْية الوصول إلى حساب الاحتمال الرياضي لوقوع كل os‏ 
oe‏ للكلمة بين ما يسبقه وما يلحق به من كلمات ومن ثم ترجيح التعرف صاحب 
أعلى احتهال رياضي» وتستلزم عملية إجراء الحساب هذه تكوين نموذج احتمال رياضي 
يحاكي كل تتابعات الوحدات اللغوية (C5‏ تحدث في الواقع الحقيقي لاستخدام اللغة. 

Bs‏ ما كانت الأساليب الرياضية والحاسوبية المختارة لبناء مثل هذا النموذج 
الاحتمالي» فلا do‏ لها من بيانات تجريبية غزيرة تملأ Fleg‏ واسعًا من بصمات الأنماط 
(الأسئلة) بالتوازي مع سلاسل أكواد الأناط المقابلة هذه البصمات (أجوبتها) وذلك 
مثلما يقتضي التعلم الحاسوبي المو ale sc‏ على عملية تشغيل هذه الأساليب الرياضية 
على محتويات هذا الوعاء من أجل بناء النموذج الاحتمالي اسم «التدريب) (Training)‏ 
pU‏ على محتويات هذا الوعاء اسم 2952 «(Language Resource) «s ed‏ 
وبطبيعة الحال OB‏ النموذج الاحتالي سوف يحمل الخصائص الإحصائية للمورد 
اللغوي الذي تَكَوَّنَ منه» والذي عليه بدوره أن يحمل الخصائص الإحصائية والسياقية 
SU‏ الذي يعبر عنها كما سنتعرض إليه في القسم الخامس من هذا المبحث. 

Aa,‏ المكوّنات الثلاث التي تميز (el‏ نظام بعيّنه للتعرف على o MI‏ سواه ضمن 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


هذا الإطار هي تلك التي تقوم باستخلاص بصمة الإشارة» وببناء gole‏ رياضية 
للأنماط» وبالتصنيف NI‏ للبصمات المستخلصة من أجل تقرير أقرب BEII‏ المقابلة 
uu‏ 

وسوف يلوح K‏ من الأقسام الغلاثة التالية باختصار إلى أنجح المقارّبات 
المستخدّمة”" لتنفيذ كل من هذه المكونات الثلاث في كل حالة من الحالات الثلاث 
الرئيسية لتقنيات التعرف على الكتابة كما صنفها القسم الأول من المبحث السابق. 


- أساليب التعرف على الكتابة العربية بتعقب خط اليد 
تحققت أفضل النتائج خلال العقدين الماضيين في التعامل مع هذه المسألة عبر 
المعالحات الرياضية وفق إحدى HY «ogg‏ منهجية (ناذج ماركوف المخفية») 
(Hidden Markov Models: HMM)‏ وهي ما Co‏ عليه في القسم التالي» وكذلك 
منهجية «الشبكات العصبية الاصطناعية» 4JICArtificialNeural Networks)‏ تستلهم 
آليات عمل الخلايا العصبية الحقيقية من حيث الاستثارة والاستجابة وارتباطاتها معًافي 
شبكات كثيفة حيث تقوم كل من هذه الشبكات العصبية الاصطناعية بدور الدالّة (أي 
العلاقة) الرياضية التقريبية التى تربط بين المحلات (وهى هنا الحروف) إلى الظاهرة/ 
النظام/ العملية IS‏ الدراسة (وهي هنا عملية الكتابة uia al‏ خط اليد) وبين 
الملاحظات المرصودة نتيجة هذه العملية (وهي الكتابة المرقمّنة - كا ورد توصيفها في 

القسم الأول من المبحث السابق - و/ أو Oa ata las‏ 
ويُخْرّف العديدٌ من أنواع هذه الشبكات العصبية الاصطناعية التي تلائم JS‏ منها rb‏ 
معينة من المسائل من تلك التي يتعذر الحصول لما على «حلول رياضية بقوانين 





-١‏ يتطلب استيفاء كل مقارّبة من مثل تلك المقارّبات تخصيص عشرات الصفحات لتفاصيل فنية يتطلب شر حها الكثير 
من الرياضيات المتقدمة» وهو ما لا يتسع له المجال في هذا المقام» وسوف نحيل القارئ المهتم oe‏ التفاصيل إلى المراجع 
المختصة بذلك. 

-Y‏ نحيل القارئ المهتم بالتفاصيل الرياضية وال هندسية بمحاكاة الشبكات العصبية واستخداماتها في التعلم الحاسوبي إلى 
الورقة التعليمية الآتية: 
Jain, A.K., Jianchang Mao, Mohiuddin, K.M., Artificial Neural Networks: A Tutorial, IEEE‏ 


.Computer Magazine, pp. 31—44, Mar. 1996 
http://AAeeexplore.ieee.org/xpl/freeabs all.jsp?arnumber-485891 
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«Closed Form Solutions) G‏ ويمكن استخدام هذه الشبكات للربط في 
كلا الاتجاهين بين المدخحلات وما تؤدي إليه من ملاحظات مرصودة - أي 
الحصول على إحدى المجموعتين بمعلومية المجموعة الأخرى - وبالطبع فإن الربط 
العكسي هو الأداة الممتخدّمة للتعرف على حروف الكتابة المقابلة لما لدينا من منحتياتِ 
Ede‏ تمثل تعقب خط اليد أثناء الكتابة. وبطبيعة الحال op‏ ذلك كله يتطلب عملية 
تدريب للشبكة المستخدّمة على كميات كبيرة من المدحلات بالتوازي مع ما يناظرها من 
ملاحظات مرصودة وهو ما سنعرض إليه في القسم الخامس من هذا المبحث. 


*- أساليب التعرف على الكتابة العربية المطبوعة 

بتتبع الأبحاث الجادة التي جرت خلال العقدين الماضيين - العقد الأخير من القرن 
العشرين والعقد الأول من القرن الحادي والعشرين - فإن تلك التى أثمرت أفضل 
النتائج في التعامل مع مسألة التعرف JYI‏ على الكتابة العربية الو c0]‏ ¥« 11[ 
اشتركت في أنها تستخدم EL‏ الرياضية القائمة على «نماذج مازكُوف adl‏ 
(Hidden Markov Models)‏ التي تسعى رغم اختلاف تنويعاتها إلى استنباط «تسلسل 
المدخلات» (Inputs Sequence)‏ الأرجح احتاليا (المجهولة لدينا) الذي يؤدي 
عبر الظاهرة/ النظام/ العملية L5‏ الدراسة (عملية طباعة الكتابة في حالتنا هذه) إلى 
«تسلسل الملاحظات» (Observations Sequence)‏ (المعلومة OXL‏ 





الشّكل 18-١‏ : النافذة المنزلقة في اتجاه الكتابة على سطور الصورة الممسوحة ضوئيًا. 





-١‏ نحيل القارئ المهتم بالتفاصيل الرياضية والهندسية لنماذج ماركوف المخفِيّة إلى الورقة التعليمية الآنية: 
Rabiner, L.R., A Tutorial on Hidden Markov Models and Selected Applications in Speech‏ 
.Recognition, Proceedings of the IEEE, Volume 77 - No. 2, pp. 257-286, Feb. 1989‏ 
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OOO‏ 


ويناظر تسلسل المدتحلات في حالتنا هذه ترميزاتٍ (ol s)‏ حروفٌ الكلمات 
Cà eI al AE ie s dall‏ عله آنا coli AE ulus‏ فيو (ulus‏ ساف 
(Vectors)‏ هون كل alos‏ بعلن alas‏ المحتوى الرسومي داخل «نافذة 
منزلقة» (Sliding Window)‏ على سطور الصورة الممسوحة ضوئيًا والمرقمّنة الجاري 
التعرف عليها كا في الشكل رقم )۱۸-١(‏ أعلاه. 
ess‏ تمتاز المعالجات المرتكزة TE de‏ ماركوف المخفِيّة بقدرتها على فصل 
جرافيمات الكتابة العربية المتصلة مع التعرف على هذه الجرافيهات في آن OB cells‏ 
تصميم متجه خصائص التعرف كان -ولا يزال- اجتهادًا مفتوحًا للباحثين تتفاوت 
$2 بين تصميمات بسيطة مثل عدد البقع المتصلة في النافذة الرأسية المنزلقة فوق 
«سطر الكتابة المعياري» g” (Baseline)‏ عدد البقع المتصلة Ñ$‏ وبين تصمييات 
افم els‏ مثل حساب «العزوم القياسية اللامتغيرة) (Invariant Moments)‏ 
للمحتوى الرسومي للنافذة. Ul ]١١ cA cV c0]‏ كان التصميمٌ المختار فإن هناك 
معايير للحكم على مدى جودة خصائص التعرف على الكتابة تُجُولها فيا يلي: 
.١‏ ضرورة أن يكون عدد الم ركبات في متجه خصائص التعرف محدودًا. 
؟. ضرورة أن يكون هذا العدد المحدود من المركبات في متجه خصائص التعرف 
۳. الحرص على أن يكون علد المركٌبات في متجه خصائص التعرف أقل ما يمكن. 
4 الشرضى عل co ase LU‏ كل LS‏ مجه حصا العرف elisa‏ 
ه. الحرص على أن تبقى تسلسلات متجهات خصائص التعرف المناظرة لنفس 
جرافيمات الكتابة ثابتة قدر الإمكان برغم أي اختلافات في أشكال هذه 
الجرافييات من حيث الأبناط والأحجام» أو بسبب بعض التشوهات الأخرى 
مثل الميل المحدود في سطور الكتابة أثناء مسحها ضوئيًا أو احتواء الكتابة على 
بعض الشوشرة المحدودة. 





-١‏ وهو السطر الأفقي الرمادي ني الشكل CAY- Y)‏ أعلاه. 
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وبينا يؤدي الفشل في تحقيق الشرطين الأول والثاني مباشرة إلى تعذر تطبيق أية 
colt‏ قائمة على ناذج ماركوف المخفِيّة - وكذلك أية أساليب أخرى للتعلم 
الحاسوبي على وجه العموم - B‏ تحقق الشرطين الثالث والرابع ضروري TEY‏ 
أنظمة واقعية للتعرف على الكتابة المطبوعة ذات تكلفة حاسوبية معقولة من حيث زمن 
التشغيل ومساحات التخزين» أما تحقق الشرط الخامس فهو مفتاح التمكن من التعرف 
على الكتابة العربية المطبوعة رغم تعدد أبناط وأحجام الكتابة. 


؛ - أساليب التعرف على الكتابة العربية المخطوطة يدويًا 

بسبب زيادة التنوع وعدم الانتظام في رسم الكتابة المخطوطة يدويًا بالمقارنة مع 
الكتابة المطبوعة» فإن هوامش الخطأ في أداء أنظمة التعرف على الكتابة العربية المخطوطة 
يدويًا هى بطبيعة JULI‏ أك كثيرًا مقارّنةَ ببوامش الخطأ في أداء أنظمة التعرف على 
الكتابة العربية المطبوعة. ومع ذلك فإن أفضل المحاولات التي جرت خلال العقدين 
الماضيين للتعرف على الكتابة العربية المخطوطة يدويًا اشتركت في ارتكازها على 
العا coU‏ الرياضية القائمة على نماذج مازكُوف Kaal‏ بأسلوب مشابه لما جرى A ue‏ 
في القسم السابق. ENE 211 »٠١[‏ 


ه- بناء الموارد اللغوية لتدريب وتقويم أنظمة التعرف على الكتابة العربية 

يتضح من الأقسام السابقة في هذا الفصل أن الأساليب السائدة والأكثر نجاعة حتى 
وقتنا هذا للتعامل مع مسائل التعرف الآلي على الكتابة العربية بتنويعاتها المختلفة هي 
أساليب التعلم الحاسوبي بأصنافها المتعددة» وكا جاء في ختام القسم الثامن من باب 
«التحليل الصرفي الآلي لمفردات اللغة العربية» من هذا الكتاب فإن كل هذه الأساليب 
يستلزم تفعيلها تكوينَ ناذج ileal‏ رياضية تحاكي كل تتابعات جرافيمات الكتابة 
العربية كا تحدث في الواقع الحقيقي لنصوص اللغة وذلك E‏ المساعدة في اختيار تتابع 
الجرافييات الذي يحقق أعلى احتمال رياضى في سياق التعرف على أشكالما المخطوطة أو 
المطبوعة. 
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ومن أجل بناء تلك النماذج الرياضية فلا E‏ من مادة لغوية DE‏ وعاءً واسعًا من 
الأسئلة (وهي في حالتنا هذه الكتابة المرفمَنة مطبوعةً كانت أم خطوطة) بالتوازي مع 
أجوبتها (النص العربي المناظر هذه الكتابة المرقمنة) لتغذية أساليب «التعلم الحاسوبي 
الموجّه) (Supervised Machine Learning)‏ ويطلق على عملية تشغيل هذه 
الأساليب الرياضية على المادة اللغوية من أجل بناء النماذج الاحتمالية الرياضية اسم 
«التدريب» (S (Training)‏ يطلق على الوعاء الممتلئ بتلك المادة اللغوية اسم «المورد 
اللغري» (Language Resource)‏ وبطبيعة op JL‏ النماذج الاحتالية سوف تحمل 
الخصائص الإحصائية للمورد اللغوي الذي CSSS‏ منه» والذي عليه بدوره أن يحمل 
خصائص النصوص العربية المكتوبة الذي يعبر عنها. 

ولذلك op‏ بناء هذه الموارد اللغوية يشترط إضافة إلى الدقة العالية أن يجري التمثيل 
بصورة متوازنة لمختلف أبعاد التنوع في الكتابة مثل؛ أبناط الطباعة وأحجامهاء أو 
الخطوط اليدوية ER‏ ... إلخ. 


ففى حالة أنظمة التعرف على الكتابة العربية بتعقب خط اليد يتكون المورد اللغوي 
من الكتابة العربية RS M‏ -كا جاء توصيفه في القسم الأول من هذا الفصل- بالتوازي 
مع النص العربي الصحيح المقابل له» وتكون المحاذاة بين هاتين OS AM‏ على مستويين؛ 
أولاهما على مستوى «الضربات المتصلة بالقلم» (Strokes)‏ (ويناظر ذلك تقسيم 
العبارة السابقة التي تحتها خط إلى: ١ء‏ لضر be‏ ت »٠ء cala‏ باء لقلم)» les s‏ على 
مستوى الكلمات العربية الكاملة. 

Gl‏ في حالة أنظمة التعرف على الكتابة العربية المطبوعة فإن المورد اللغوي يتكون من 
رَفمنة صفحات الكتابة العربية الممسوحة ضوئيًا - | جاء توصيفه في القسم الأول من 
هذا الفصل - بالتوازي مع النص العربي الصحيح المقابل له» وتكون المحاذاة بين هاتين 
OS AM‏ على مستوى الكلمات العربية الكاملة وكذلك على مستوى السطور في كل 
صفحةء ولذلك الغرض PAES‏ أدواتٌ برامجيةٌ للتقسيم JYI‏ لكل صفحة مطبوعة 
إلى كلمات وسطور كما هو مبين في الشكل الموضّح أدناه» وعلى اللغويين القائمين على 
بناء هذه الذخيرة اللغوية التحققٌ من صحة هذا التقسيم الآلي وتصويبه عند اللزوم. 
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دراسة إحول تقسيم bai‏ العربي الممسوح اضوئيًا 
Ca‏ اسطور] ELS]‏ 




















لخدمة [نظمة التعرف] GH LT]‏ التصوص المطبوعة إضوتيا 
خصو العربية Ara OCR Systems [ei4‏ تحت الظروف] 


إلو اقعية Lod‏ اشوشرة فضا baad Lye]‏ أبناط| إلكتابة إو أحجامها 


المتعددة إو SA‏ إو b sa‏ إكلمات| Dae] Kanay‏ |عربيةا 




















الشّكل :۱۹-١‏ نموذحٌ على نواتج تعيين حدود الكلمات العربية الكاملة وحدود السطور بصورة آلية 
اعتمادًا على التوزيع التكراري لنقاط الصفحات المرقمنة. 

ويتشابه كثيرًا بناءٌ الموارد اللغوية لأنظمة التعرف على الكتابة العربية المخطوطة يدويًا 
مع تلك المتعلقة بأنظمة التعرف على الكتابة العربية المطبوعة مع ملاحظة أن عمليات 
التقسيم الآلي للصفحات إلى كلمات وسطور ثم تصويب هذا التقسيم بل وتفسير 
النصوص في الصفحات المخطوطة يدويًا تستغرق من اللغويين عملاً ووقنًا أكبر. 
يُشكّل بناءٌ الموارد اللغوية اللازمة لتدريب أنظمة التعرف على الكتابة العربية بأنواعها 
الثلاثة؛ «بتعقب (JE dass‏ ر (e s dall)‏ المسطر à i (0 9 3b‏ كبيرة من أنشطة 
واستثمارات البحث والتطوير في هذه التقنيات» jig‏ بعضهم بحوالي خمسين في 
المئة» وبسبب ضخامة الحجم وارتفاع دقة العنونة المطلوبتين EUST‏ بناء كل من هذه 
الموارد فإن هذا النشاط يستدعي توظيف عدد من اللغويين العرب lh gll‏ حاسوييًا 
uan ce EU TN‏ الأهداف التى نرجو أن حققها تأليف هذا 
l Ty‏ 
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الفصل الثاني 
مُعالجة النّصّ العربيٌ المنطوق 


د. محمد عفيفي 
المبحث الأوّل: التَّعرّف JYI‏ على الكلام. 


المبحث I‏ نظم تحويل النص إلى كلام. 
المبحث الثّالث: نُظُم التَعَرّف على اللّغة AEA y‏ 
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المبحث الأول 


التَّعرّف الآليّ على الكلام 


-١‏ مقدمة. 
Y‏ مكونات نظم التعرف على الكلام. 
-Y‏ ملخص لبناء نظام للتعرف على الكلام. 
- التعرف على الكلام في اللّغة العربيّة. 
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Y‏ — مقدمة 

نظم التعرف YY‏ على الكلام لها الكثير من التطبيقات المهمة في مختلف المجالات. 
ومن المعروف أن هذه النظم - وخاصة المعاصرة منها - تعتمد على مجموعة من النماذج 
الإحصائية التي تعبر عن الأصوات المختلفة في اللغة التي يراد التعرف عليها؛ وبا أن 
الكلام - كما تبين من الفصول السابقة - له بناء زمني وطيفي» بمعنى أن كل صوت من 
الأصوات هو عبارة عن تسلسل زمني لبعض المتجهات الطيفية» OB‏ ناذج ماركوف 
(Hidden Markov Models -HMM) Zl‏ تعتبر من eal‏ (إنلم يكن cael (Í‏ 
التي ُستخدم لبناء نماذج الأصوات في نظم التعرف على الكلام المعاصرة. 

إن أسس نظم التعرف على الكلام المعاصرة - والقائمة على ناذج ماركوف ال مخفية 
- ظهرت في سبعيئيّات القرن الماضي في جامعة «كارنيجي ميلون» (CMU)‏ الأمريكية» 
وكذلك في شركة «آي بي CBM) tel‏ وني هذه الأثناء كانت الناذج قائمة على استخدام 
ce‏ الكثافة المتقطعة «(discrete density)‏ والتي سرعان ما تطورت معامل «بيل») 
(Bell labs)‏ إلى استخدام Us‏ يعرف ب «الكثافة (continuous density) tikat‏ وكانت 
الأبحاث في هذا الوقت تنصب على النظم ذات الكلمات المنفصلة من متكلم واحدء أو 
النظم التي تتعرف على عدد محدود من الكلمات (الأرقام على سبيل (JEU‏ ومع تسعينيّات 
القرن بدأ الاهتمام بنظم الكلام المتصل التي لا تعتمد على المتكلم. وكان الدافع الرئيسي 
هذه الأبحاث سلسلة من البرامج التي كانت تمولها وكالة مشروعات الأبحاث الدفاعية 
المتقدمة «Defense Advanced Research Projects Agency (DARPA)‏ والتى 
عملت على تحسين نسبة التعرف بالنسبة لأنواع مختلفة من الكلام المتدرجة الضعوية, 
ومن المناسب في هذا السياق أن Si‏ أن pleal‏ هذه الهيئة بتمويل أبحاث اللغة العربية 
بدأ في خلال العام ce Yt Y‏ واستمر في عدة مشروعات بحثية أدت إلى تحسن كبير في دقة 
التعرف على اللغة العربية؛ وسنتعرض لبعض هذه الأمثلة في هذا المبحث. 

وتحقيقا للغاية من هذا الملبحث سنبدأ بشرح المكونات الأساسية لنظم التعرف على 
الكلام القائمة على ناذج ماركوف المخفِيّة - وبالتحديد سنقوم بشرح النظم التي تعتمد 
على نماذج (جاوس) البسيطة؛ كا سنتطرّق إلى كيفية حساب معاملات هذه النماذج 
OT‏ من خلال إشارات الكلام. ويجدر القول في هذا السياق أن إمكانية حساب هذه 
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المعاملات OT‏ تحَدُ أحد أهم أسرار النجاح لنماذج ماركوف المخفيّة. ومع طرق حساب 
المعاملات تأي مناقشة دالة المدف (Objective function)‏ التي يتم الاستعانة مها أثناء 
تدريب النماذج؛ كا سنتعرّض لشرح بعض التطبيقات العملية هذه النظم | وخصوصًا 
تلك التي تُعنى باللغة العربية. 


Y‏ - مكونات نظم التعرف على الكلام 

يتم تحويل إشارة الكلام الداخلة إلى سلسلة من المتجهات الأكوستيكية» يطلق 
عليها - fale‏ - «متجهات السَّمات» (feature vectors)‏ وتسمى هذه العملية 
«استنباط السَّمات» feature extraction)‏ ثم يقوم محرك البحث بمحاولة إيجاد 


سلسلة الكلمات المناظرة» بحيث تكون: 
argmax‏ ~ 
e) qc PUMP b (wiy)‏ 
مايتم تبسيط المعادلة رقم 000 باستخدام قاعدة Bayes‏ إلى: 
argmax‏ ~ 
I D (ylw) p (w)‏ دو 00 


تشير © إلى أفضل سلسلة من الكلمات» وتُشير Ew‏ أية سلسلة من الكلمات. 

ونحسب الكمية p (yIw)‏ استخدام النموذج الأكوستيكي الإحصائي (HMM)‏ 
والكمّيّة باستخدام النموذج اللغوي الإحصائي. والشكل C - Y)‏ يبين نظام للتعرف 
على الكلام» والذي سيتم تفصيله فيما يلي: 


النماذج اللغوية الإحصائيّة 


متجهات السّمات الكلمات التي تم التعرف عليها 
ل 





النماذج الأ كوستيكية الإحصائيّة 


الشكل :١-۲‏ رسم توضيحي لنظام التعرف على PASI‏ 
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النموذج الأكوستيكي: ك| هو معروف OB‏ أصغر وحدة صوتية هي الفونيم. فعلى 
سبيل المثال» كلمة C$‏ تتكون /k /a /t /a /b /a / YIS‏ . وقد ناقشنا الوحدات 
الصوتية للغة العربية في الفصول السابقة. لذلك فإن أي كلمة يمكن تمثيلها عن طريق 
ربط الفونيمات المكونة ها كا في المعجم النطقي. 

ويمكن اعتبار النموذج الناتج هو النموذج الأكوستيكي هذه الكلمة؛ ومن الجدير 
بالذكر أن معاملات ناذج الفون المكونة لأي كلمة يتم حسابها باستخدام ما يسمى 
«بيانات التدريب» والتي تتكون من إشارات الكلام والكلمات المناظرة. ويتم هذا 
التدريب في مرحلة Meli eby‏ 


النموذج اللغوي: تتكون النماذج اللغوية - OU‏ - عن (N-gram) zò‏ وهذا 
النموذج يعطي احتمال ظهور كلمة ما مشروطًا على الكلمات ١-21‏ السابقة. فعلى سبيل 
المثال: فإن نموذج Q-gram)‏ أو (bigram)‏ بحسب احتمال ظهور كلمة الولد بعد كتب 
(الولد|كتب)م» وباستخدام هذه الناذج يمكن حساب احتمال أي ila‏ من الجمل من 
الناحية اللغوية» وسيتم تفصيل هذه النماذج لاحقا. 

وبعد حساب النموذجين -الأكوستيكي واللغوي - فإن برنامج SU‏ الشّفرة 
«Sa, (decoder)‏ حساب أرجح سلسلة من الكلمات المناظرة لإشارات الكلام. ومن 
الجدير بالذكر أنه في نظم التعرف ذات العدد الكبير من الكلمات op‏ عمليات البحث 
تتطلب قدرات حسابية عالية» ولذلك يلزم تطوير محركات بحث ذات كفاءة Hle‏ 
وعليه OB‏ إجراء البحث على عدة مراحل باستخدام »25 ,35( (lattice)‏ يعتبر من 
الطرق الواسعة الانتشار» وسيتم الحديث عن ذلك لاحقا. 

(Feature extraction) استنباط السّمات‎ -١ و‎ Y 

تعد خطوة استنباط السات خطوة أساسية تهدف إلى استنتاج المعلومات المهمة في 
إشارات الكلام» وفي نفس الوقت تقلل من فقد المعلومات. وبالإضافة إلى استنباط 
صورة مبسطة لإشارات الكلام فإن خطوة استنباط السَّمات تهدف - كذلك - إلى 





ue d -١‏ ملاحظة آنا - في هذا الفصل - نستخدم كلمتي «فون» و «فونيم» بدون تمبيز؛ مع التأكيد علي وجود بعض 
الفروق التقنية بين الكلمتين. 
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الحصول على متجهات سات تناسب إلى حد كبير فروض الناذج الأكوستيكية. ومن 
المتعارف عليه أن متجهات السات يتم استخلاصها كل عشرة ميلي ثانية من نوافذ طوها 
Yo‏ ميل ثانية. ومن أشهر الطرق المستخدمة: المعاملات MFCC - Mel frequency)‏ 
«(cepstral coefficients‏ ويتم حساب هذه المعامللات عن طريق تطبيق «تحويل جيب 
elc‏ المتقطع) (Discrete cosine transform)‏ على اللوغاريتم الطيفي» ويتم الاستعانة 
بمقياس Mel‏ اللاخطى لمضاهاة ترددات الأذن. وبالإضافة إلى MFCC‏ فإن معاملات 
التنبق الخطي الإدرا (Perceptual Linear Prediction - PLP) is‏ تقوم بتحويل 
معاملات التنبؤ ا خطي المعروفة إلى معاملات (PRAS)‏ بعد تطبيق التحويلات اللاخطية 
المرتبطة بالإدراك. ومن المعروف أن مُعاملات MFCC‏ ومُعاملات PLP‏ تعطي نتائج 
متقاربة في نظم التعرف على الكلام» مع بعض Jl‏ النسبيّ لمعاملات PLP‏ في أوساط 
الضوضاء. وبالإضافة لاستخدام المعاملات التي تعبر عن الطيف لإشارات الكلام فإنه 
من المعروف أن إضافة المشتقة الأولى والمشتقة الثانية هذه المعاملات يستخدم على نطاق 
واسع في نظم التعرف على الكلام. فعلى سبيل المثال» إذا كان التمثيل الطيفي يتكون من 
۳ معاملاً من معاملات MECC‏ فإن المنجه النهائى يضيف المشتقة الأولى والثانية هذه 
المعاملات ليصبح طول المتجه هو CYASYY EY‏ | 

Y‏ و CY‏ النماذج الأكوستيكية ونماذج مار كوف ال مخفية 

کا ف القدنة فاه يمكن ل الكلنة كسلسلة من القوتات وتسم هده 
السلسلة بالتمثيل الصوتي للكلمة ويمكن الحصول عليها باستخدام قاموس صوت وفي 
العموم يمكن أن يكون للكلمة الواحدة تمثيلات صوتية متعددة تناظر طرق نطقها. 

وأبرز مثال على ذلك في اللغة العربية هو التصريفات المختلفة للكلمة. فعلى سبيل 
Op Jti‏ كلمة كتب يمكن نطقها CSS‏ أو «VS‏ 

ويتكون كل تمثيل صوتي عن طريق ربط عدد من الفونيهات. فعلى سبيل ob JUI‏ 
التمثيل الصوتي CES‏ للكلمة كتب يمكن تكوينه عن طريق ربط الفونيهات المكونة 
للتمثيل الصوتي .ka-ta-ba‏ 


AE 
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ew‏ تمثيل كل فونيم بها يسمى ناذج ماركوف ال مخفية کا هو موضح في الشكل 
(Y-Y)‏ 





الشّكل Y-Y‏ تمثيل الفونيمات باستخدام نهاذج ماركوف المخفيّة. 
* عدد من الحالات (states)‏ ثلاثة في الشكل. 
*؟ عدد من الانتقالات (transitions)‏ . ولكل انتقال ما يعرف Jie b‏ الانتقال. 
فمثلا المعامل a,‏ يعبر عن احتمال الانتقالات من ا حالة رقم Y‏ إلى الحالة رقم 
Y‏ ويكون مجموع احتمالات الانتقالات التي تخرج من حالة ما مساويا لواحد. 
وس الشكل (Y 7 Y)‏ نموذج ماركوف من اليسار إلى اليمين (left-to- right)‏ 
الواسع الانتشار في نظم التعرف على الكلام. 
* ناذج المخرجات ròl Coutput distributions)‏ (جاوس) البسيطة الواسعة 
الانتشار في نظم التعرف على الكلام. وفي هذه الحالة تكون معاملات النموذج 
هى متجه المتوسط (mean vector)‏ ومصفوفة Covariance) EE‏ 
(Matrix‏ . 
ودون الدخول في تفاصيل أكثرء Ul‏ إذا أعطينا متجهات السَّمات المناظرة لنموذج 
ما فإنه يمكن حساب معاملات الانتقال ومعاملات ناذج المخرجات باستخدام ما 
يسمى الخوارزم .(forward-backward) 21-1 SUMI‏ وكذلك إذا أعطينا c3‏ 
ما ومجموعة من متجهات السَّمات» فإنه يمكن حساب de=‏ حدوث هذه المتجهات 
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ومما سبق فإنه إذا أعطينا حزمة من جمل التدريب فإنه يمكن أوتوماتيكيا حساب 
معاملات الفونييات المكونة od‏ الجمل.ومن المعروف أن الفونات تتغير تغيرًا كبيرًا 
بتغير الفونات المجاورة» فعلى سبيل المثال: الفون (K)‏ في كتب يختلف عن الفون K)‏ في 
سمكء وللتغلب على هذه الصعوبة يمكن استخدام نموذج لكل فون أخدًا في الاعتبار 
الفونات المجاورة من اليمين واليسار» وتسمى هذه cel‏ «تراي .(Triphone) to s‏ 
وعلى الرغم أن هذه الناذج تعبر بشكل ol‏ عن الفونات» OB‏ عددها يصبح كبيرا 
جدا. فعلى سبيل المثال إذا كان في لغة ما 4٠‏ فون» فسينتج لدينا Et‏ نموذج فوني أو 
أحادي الفونية و ٤٠×٤٨ ES‏ نموذجًا ثلاثي الفونية. وينتج عن هذا العدد صعوبة في 
حساب معاملات الناذجء ولذلك فإنه يتم ربط معاملات النماذج. ففي JULI‏ السابق 
Sl]‏ لدينا ٠504 ٠‏ 4 نموذج ثلاثي الفونية» أي حوالي Me ttt‏ نموذج. يمكن 
ربط هذه الناذج لعدد أقل = على سبيل المثال 6٠٠٠‏ نموذج. ومع أن الربط فكرة جيدة 
وتعطي فرصة الموائمة بين عدد الناذج وحجم حزمة البيانات المتوفرة في التدريب» 
يبقى السؤال عن كيفية الربط أو المشاركة في المعاملات؛ ويتم هذا في أغلب الأحيان 
عن طريق شجرة القرار. 
شحرة القرار (Decision Tree)‏ 

يتم ربط أو مشاركة النموذج عادة على مستوى الحالة وليس النموذج؛ وتستخدم 
شجرة القرار لتحديد أي الحالات يتم ربطها. ولكل حالة من كل فون q‏ تكون هناك 
شجرة ثنائية» وتحتوي كل نواة في هذه الشجرة على سؤال عن جيران الفون. 

ولربط الناذج iks M‏ بحال i‏ فون q‏ فإن كل الحالات في النماذج المناظرة المشتقة 
من 0 يتم تجميعها عند جذر الشجرة. واعتمادًا على الإجابة على السؤال عند كل نواة يتم 
تقسيم الحالات إلى قسمين حتى الوصول إلى أوراق الشجرة. 

وتتشارك كل الحالات الكائنة في ورقة من الأوراق في المعاملات. ويتم اختيار 
الأسئلة عند كل نواة من مجموعة مسبقة من الأسئلة. وعادة تكون هذه الأسئلة مرتبطة 
بجيران الفون. 


فعلى سبيل المثال» تستخدم أسئلة مثل: هل على يمين الفون صوت متحرك؟ 
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وهكذا يتم اختيار السؤال الذي يعطى أعلى زيادة في الاحتمالات عند الانقسام. في 
حالة استخدام نماذج جاوس الأحادية يمكن حساب الزيادة في الاحتمالية من الأعداد 
والمتوسطات دون الحاجة إلى البيانات الأصلية» ولذلك فإن عملية بناء الشجرة تتم 
بشكل سريع. 

ملخص تدريب ناذج ماركوف: 

* يتم اختيار نماذج أحادية الفون ابتدائية. 

* يتم تدريب الناذج بتطبيق الخوازمية الأمامية - الخلفية لعدد من المرات. 

* يتم نسخ كل فون 4 إلى ثلاثي - فون ل + 0 - ×» والذي ظهرت باعتبارها 

حزمة في حزم التدريب. فعلى سبيل المثال: إذا ظهر الفون © )٠٠١١(‏ مرة فسيتم 
نسخه إلى ٠٠١١‏ نموذج. 

يتم تدريب ناذج ثلاثيّة الفون باستخدام خطوة مشابهة» ولكن المشكلة أن بعض 
هذه الناذج تظهر لعدد صغير جدا من المرات. 

. يتم د iS‏ خوارزم شجرة القرار بمشاركة النسخ في عدد محدود من الناذج. 

(N-gram) الإحصائي‎ ol اللغوية‎ eil -8 Y 

يتم حساب احتمال سلسلة من الكلمات باستخدام ناذج الحو الإحصائيٌّ 
N-gram‏ حيث تكون N‏ عادة في حدود ٤-۲‏ . 

ولتوضيح هذه الناذج يُفضَّل استخدام مثال. فلنأخذ الجملة «لقد قامت الثورة 
المصرية في الخامس والعشرين من يناير». وإذا أخذنا نظرة احتالية للغة o‏ قد لا يروق 
لبعض اللغويين - ولكته على أي حال ما نقوم به في نظم التعرف على الكلام- فإن 
احتمال كلمة الخامس في الجملة السابقة يكون: 

P seii dA 

الى Bis‏ الكلمة. P‏ الجملة السابقة ]3 اعتبرنا c3‏ الحو «J-gram zn‏ فإننا 
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نكتب die I‏ كما یلي: 
(المصرية في | الخامس) ‏ أو الثنائي جرام d)‏ | الخامس) P‏ 

ومن الواضح dl‏ بزيادة قيمة N‏ يتم تحسين القدرة التنبؤية للنموذج؛ ولكن على 

. القدرة على حساب الاحتماللات. 

e‏ الكفاءة الحسابية للنماذج. 

ويتم حساب نماذج (N-gram)‏ ببساطة شديدة فعلى سبيل JEU‏ فإنه احتهال ( المصرية 
في | الخامس) P‏ يتم حسابه ببساطة كعدد مرات حدوث «المصرية في الخامس» مقسوما 
على عدد col‏ حدوث «المصرية في» في مدونة كبيره من النصوص. ورغم بساطة هذه 
الطريقة فإن المشكلة الواضحة Ob‏ كثير من الاحتمالات ستكون صفرية لعدم مشاهدتها 
في مدونة النص. ويتم التغلب على هذه المشكلة بها يسمى أسلوب 23-1« (discount)‏ 
والتراجع (back-off)‏ ومنها على سبيل المثال .(Kneser-Ney) iż b‏ 

؟,5- عر كات البحث 

كا 255 في مقدمة هذا الفصل فإن سلسلة أكثر الكلمات احتمالاً يمكن حسابها من 
متجهات السات عن طريق البحث في أرجح سلسلة من الحالات التي يمكن أن تكون 
قد أنتجت سلسلة متجهات السات طبقًا للمعادلة رقم EY‏ ويمكن حل هذه المعادلة 
بكفاءة عن طريق البرمجة الديناميكية أو ما يسمى «خوارزم) (Viterbi)‏ وعند نهاية 
الجملة يمكن حساب أفضل احتتال. وإذا سجلنا أفضل اختيار عن كل Op cd‏ 
بإمكاننا الرجوع والحصول على أفضل سلسلة من الكلمات. 

وعلى الرغم من كفاءتهاء فإن طريقة خوارزم (Viterbi)‏ لا يمكن تطبيقها مباشرة 
في حالة وجود عدد كبير جدا من الكلمات» وخاصة مع ناذج لغوية طويلة. ولحل هذه 
المشكلة واالحصول على محرك للبحث كفء» فقد ظهرت طرق عديدة» وسوف نعرض 
هذه الطرق دون الدخول في تفاصيلها. ويمكن Az y‏ خوارزم (Viterbi)‏ بكفاءة عن 
طريق تطبيق ما يسمى «التقليم» s 3 s Pruning)‏ الرُموز) (Token passing)‏ . 
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وتقوم الفكرة الأساسية على MT‏ يتم حساب جيع الحالات الواقعة في فضاء البحث» 
ولكن يتم التركيز على الحالات التي تقع في نطاق الشعاع (beam width)‏ من أرجح 
الحالات. وعلى الرغم من أن التقليم وتمرير الرٌموز يمكن أن يؤدي إلى تطبيق جيّد 
لخوارزم (Viterbi)‏ (ني بعض الأحيان يمكن الحصول على نفس النتيجة بزيادة ۲./ 
من الحالات الواقعة في فضاء البحث) فإن الأنظمة ذات العدد الكبير جدا من الكلمات 
قد تحتاج إلى طريق أكثر كفاءة. ونذكر على سبيل المثال الطرق التالية بدون الدخول في 
تفاصيلها. 

يمكن استخدام البحث عن طريق العمق أو لا (Depth first)‏ وهذه الطريقة يمكن 
أن تؤدي إلى كفاءة شديدة للبحثء ولكن يلزم مقارنة مسارات ذات أطوال مختلفة ما 
Rs‏ من التحكم في البحث. ويمكن استخدام طرق تعتمد علي المحولات محدودة 
الحالة c «finite state transducers»‏ وهذه الطرق تعبر عن كل المعلومات المطلوبة 
للبحثء مثل قاموس النطق والناذج الأكوستيكيّة والناذج اللغوية في صورة هذه 
المحولاات» ثم يتم دمجهاء ومن ثم تطبيق خوارزمات للتحديد «(determinization)‏ 
وضغط (minimization)‏ المحول الناتج للوصول إلى حول يمكن البحث فيه بكفاءة. 

ومع أن حر كات البحث مصممة في الأساس للحصول على أفضل جملة» فبالإمكان 
الحصول على عدد ميم (MD‏ من الجمل مرتبة حسب احتاليتها بتعديلات بسيطة» 
ويمكن تخزين الجمل الناتجة بصورة أكثر كفاءة في ما يسمى «التشبيكة» (lattice)‏ 

ومن المتعارف عليه في البحث حاليا أن يتم استخدام محركات البحث متكررة- 
المرور (Multiple - pass)‏ وني هذه المحركات يتم البحث على عدة مراحل؛ ففي 
المرحلة الأولى يتم البحث باستخدام ناذج أكوستيكية ولغوية بسيطة نسبيا (على سبيل 
المثال ثنائي -جرام وثلاثي- فونات غير عابرة للكلمة) للحصول على (التشبيكة) ثم يتم 
إعادة تقييم (التشبيكة) باستخدام ناذج أكثر تعقيدا (مثال الرباعي - جرام وغيرها)؛ 
وتعتبر هذه الطريقة وسيلة معروفة للحصول على كفاءة عالية للبحث بدون التخلي عن 
الدقة. وبالإضافة إلى (التشبيكة) فإنه يمكن التعبير عن الحلول المتعددة باستخدام ما 
يسمى شبكة الاختلاط «(confusion network)‏ وهذه يمكن اعتبارها أكثر كفاءة من 
(التشبيكة)» ولكن المسارات المتوازية فيها لا تعبر عن نفس الفترة الزمنية. وتستخدم 
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شبكات الاختلاط à‏ تطبيقات متعددة؛ على Jui de‏ دمج نتائج عدد من نظم 
التعرف على الكلام. ويسمى ذلك طريقة الانتخاب. 

فيا يلي طريقة التدريب والبحث لبناء نظام en‏ باعل الكلام) لم ges cds‏ 
الإسهاب عن بناء أنظمة التعرف على الكلام في اللغة العربية. 


-Y‏ ملخص لبناء نظام للتعرف على الكلام 

لبناء نظام حديث للتعرف على الكلام فإنه يلزم الآتي: 

(Acoustic data) -البيانات الأكوستبكية‎ Y, Y 
وعادة تتكون هذه الملفات من‎ (US وتتكون من ملفات الكلام والنص المصاحب‎ 
عدة آلاف من الساعات للحصول على الدقة المطلوبة. ويمكن استخدام عدة مئات‎ 
من الساعات في البداية ثم استخدام النظام الناتج للحصول على النص المناظر لبقية‎ 

البيانات. 

يتم الحصول على البيانات الأكوستيكية على النّحو الوارد فيم سبق. ويتم بناء 
نهاذج الفون» وعادة تستخدم ناذج ثلاثية - الفون إلي نياعي pill‏ العابرة للكلمات 
LS (Cross-word)‏ يتم استخدام شجرة القرار لربطها على النحو الذي سبق تفصيله. 
وفي المرحلة الأولى يتم الحصول على معاملات النماذج عن طريق تعظيم الاحتالية 
(Maximize the probability)‏ ثم تأي الطرق التمييزية» وهي واسعة الانتشار في 
النظم عالية الدقة؛ ولكننا لن نتعرّض ها في هذا الفصل» ويمكن الرجوع إلى بعض 
المراجع المدرّجة في نهاية الكتاب إذا أراد القارئ التعرف على هذه الطرق. وتعتبر حزمة 
البرامج HTK‏ من أهم الأدوات في هذا الصدد. 


Y Y‏ - البيانات اللغوية 
وتتكون هذه البيانات من النصوص. ويفضل أن تكون النصوص المستخدمة قريبة 


من الجمل التي سيتم التعرف عليها لاحما. ف فللتعرف على الاخبار يفضل استخدام 
نصوص مستقاة من الأخبار - كالصحف أو المدونات. وتعتبر نصوص «جيجا وورد» 
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(Giga word)‏ من أشهر هذه النصوص. وتستخدم البيانات اللغوية لبناء النداذج 
اللغوية كا تم تفصيله فيا سبق. وتعتبر حزمة برامج (SRI tool kit)‏ من أهم الأدوات 
لبناء النماذج اللغوية. 

۳ - البحث 

بعد بناء الناذج الأكوستيكية واللغوية يتم دمجها مع قاموس النطق لبناء فضاء 
البحث. وعند التعرف على الكلام فإنه يتم استكشاف فضاء البحث للوصول إلى أفضل 
سلسلة من الكلهات. وفي هذا الصدد - وكما ذكرنا سابقا - يستخدم عادة أحد محركات 
البحث متكررة المرور للوصول إلى أفضل الحلول بكفاءة. ونُشير إلى المحركات القائمة 
على المحولات محدودة الحالة» ويمكن استخدام حزمة البرامج من AT&T‏ لهذا الغرض. 

ولكن محركات البحث في العموم - وخاصة ذات الكفاءة العالية - لا تتواجد 
بشكل مفتوح «(Open source)‏ ولكن يمكن استخدام محرك البحث الموجود مع 
HTK‏ كبداية لدراسة الجانب العملي لتطوير محركات البحث ذات الكفاءة العالية. 

وتكمن أهمية الطرق السابقة في أنها تعمل لأي لغة وبشكل آل ولا تحتاج على الأقل 
نظريا لأي دراية باللغة» less‏ يكون المكون الذي يحتاج إلى دراية باللغة في هذه النظم 
هو القاموس الصوتي. 

وعلى الرغم من ذلك فإن الدراية بلغة ما واستخدامها بشكل أو بآخر يمكن أن 
يؤدي إلى تحسين نتائج التعرف على الكلام بشكل كبير؛ وفيا يلي سنتحدث باستفاضة 
عن التعرف على الكلام في اللغة العربية. 


٤‏ - التعرف على الكلام في اللُغة العربية 

تتحدث في هذا الجزء عن التعرف على الكلام في اللّة العربية. ومن حسن الحظ أن 
اللغة العربية كانت تحوز pleal‏ مجتمع الباحثين في التعرف على الكلام خلال الفترة من 
٤‏ إل 50١٠١‏ . وكان هذا متزامنا مع برامج (DARPA)‏ لهذا الغرض. وتم بناء أنظمة 
للتعرف على الأخبار والمحادثات التلفونية وكذلك بعض اللهجات المحلية مثل العراقية 
والشامية. وأدى هذا الاهتمام لتطور نظم التعرف على الكلام العربية تطورًا كبيرًا. 


الاب 
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وسنعرض - فيا يي - لبعض خصائص اللغة العربية التي نمت معالجتها أثناء 
الأبحاث السابقة. 


١, €‏ - غياب التشكيل من النصوص العربية 

من المغروف أن النضصوص العربية الحديثة تكتب بدون تشكيل. فعلى سبيل المغال 
فإن الكلمة «كتب» يمكن أن تكون «C59‏ أو TU‏ أو غيرها. ويمكن للقارئ في 
أغلب الأحوال أن يستنتج النطق الصحيح من السياق. ورغم أن هذه الطريقة واسعة 
الانتشار فإنها تشكل تحديًا لنظم التعرف على الكلام لصعوبة 1 أو ربعا استحالة J pat l‏ 
على نطق الكلمة دون وجود التشكيل. 

ومع بداية الاهتمام بنظم التعرف على الكلام العربيّ فقد تم استخدام حروف الكتابة. 
ففي المثال السابق يكون بطق كلمة «كتب» هو ED.‏ ومع أن هذه الطريقة التي تعتمد 
على (Graphemes) oll A‏ (الجرافيم هو وحدة التحليل الكتابي/ الجرافيميٌ) قد 
ساعدت على سرعة تطوير النظم» وخاصة بالنسبة لغير الناطقين بالعربية» فمن الواضح 
أن ذلك يتم على حساب الدقة. فناذج الصوامت» مثل «(ت» تمتص الحركات الصغيرة. 

وكذلك ob‏ ناذج الصوائت» مثل «و» Jal‏ بين «و» 2 (s Gm Eun‏ 
مثل انور» و «و» شبه المنحرك (الَّذي End‏ حرف Cod‏ مثل tel on‏ ولبناء نهاذج فونية 
للغة العربية فإنه يجب إضافة الحركات القصيرة. ويعتبر محلل (Backwalter)‏ الصرفي 
من أهم الأدوات للقيام بذلك. فعند إدخال عدد من الكلمات «JI‏ فإنه يعطي لكل كلمة 
(بالإضافة إلى خرجات أخرى) كل طرق النطق المختلفة. وعلى الرغم من أنه لا يمكنه 
تحديد طريقة واحدة لكل كلمة في البيانات الأكوستيكية» فإنه يمكن بناء قاموس صوتي 
بطرق نطق متعددة. وباستخدام هذا القاموس يمكن بناء ناذج أكوستيكية فونية. 

وفي مقارنة بين ناذج الجرافيم والناذج الفونية للغة العربية الفصحى المعاصرة. 
(Modern Standard Arabic MSA)‏ وج أن النماذج الفونية تعطي (us uz‏ 
٠‏ (يجب التنويه أن التفوق النسبي /٠١‏ يعني أنه إذا كانت نسب الخطأ لنماذج 
الجرفيم هي /7١‏ فإن نسبة الخطأ لناذج الفون تكون FNA‏ وليس .)/٠١‏ ومن المفيد 
التنويه أيضا أن القواميس الصوتية كثيفة النطق - كما في حالة التشكيلات العربية (في 
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المتوسط محلل dax - (Backwalter‏ | حوالي T‏ تشكيلات مختلفة لكل كلمة)» وعندها 
Jex‏ استخدام ما يسمى «(Pronunciation Probabilities) deses‏ والتي 
يمكن استنتاجها ببساطة أثناء تدريب النظام. 

ومن المفيد أن نلفت النظر إلى أن أي محلل صرفي قد يفشل في حل بعض الكلمات» 
خاصة الكلمات ذات الأصول الأجنبية أو التى لا توجد في قاعدة بياناته. وني هذه ا حالة 
يجب إيجاد تشكيل هذه الكلمات | دنا أو «OTT‏ ومن المدهش أن بعض 
أكثر النظم نجاحا يقوم بمزج الفونات مع الجرافييات للكلمات التي لا يوجد ها تشكيل. 

وعلى الرغم من تفوق الناذج الفونية للعربية الفصحى فإن تطبيقها للتعرف على 
اللهجات المحلية» مثل: العراقية» لم يحالفه النجاح؛ ويرجع ذلك في الغالب إلى أن 
المحللات الصرفية - مثل Buckwalter‏ - مصممة للتعامل مع اللغة الفصحى؛ وعادة 
ما تؤدي إلى تشكيل خاطئ للكلات العامية» وخاصة الشائعة؛ وسنعود إلى هذه النقطة 
عند مناقشة التعرف على اللَّهجات العامية. 


٤‏ و” - البناء الصرفي للغة العربية 

من المعروف أن اللغة العربية غنية صر فياه مقارنة باللغات الأوروبيّة كالإنجليزية. 
فبإضافة السوابق واللواحق يمكن تحويل أي كلمة إلى عدد كبير من الكلمات 
ذات الدلالات المختلفة؛ فكلمة «سيكتبه» - على سبيل المثال - تكافئ الحملة 
الإنجليزية «He will write i‏ ولأن تعريف «الكلمة» في نظم التعرف هو سلسلة 
متصلة من الحروف. OB‏ استخدام السوابق واللواحق يؤدي إلى ظهور عدد كبير 
جدا من الكلمات المختلفة. وعلى سبيل المثال فإن قاموسًا مكونًا من 55 ألف كلمة 
يكفي لتغطية 44/ من نصوص الأخبار في اللغة الإنجليزية» بينه| نحتاج إلى عشرة 
أمثال هذا العدد أي حوالي ٠٠١‏ ألف كلمة للوصول إلى نفس النسبة في اللغة العربية. 
وفي JULI‏ العامة لا يمثل ذلك مشكلة إذا توفرت الأدوات المناسبة لبناء فضاء البحث 
وكذلك محرك بحث ذو كفاءة عالية جدا للتعامل مع هذا العدد الضخم من الكلمات. 
ويمكن عن طريق التحليل الصرفي - أو حتى بعض الطرق البسيطة - فصل السوابق 
واللواحق أو حتى بعضهاء ويؤدي هذا بطبيعة ا حال إلى تقليص عدد الكلمات» وبالتالي 
تحسين التغطية للنصوص؛ ولكنه لا يؤدي بالضرورة إلى تحسين نسب التعرف على 
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الكلمات. ويمكن تفسير ذلك بأن فصل السوابق واللواحق يؤدي إلى تقليص القدرة 
التنبؤية للناذج اللغوية» لأن السابق أو اللاحق في حالة فصله يعد ككلمة منفصلة؛ في 
حين أن قدرته التنبؤية تكون ضعيفة للغاية (فالسابق «JD‏ - على سبيل المثال - يمكن 
أن يأتي بعده عدد كبير جدا من الأساء في اللغة العربية)؛ كما أن بقاء الكلمة كوحدة 
متصلة يؤدي إلى ناذج أكوستيكية أكثر استقرار يسهل تمييزها عن بقية الكلمات» ولكن 
هذا لا ينفي أن التحليل الصرفي قد يكون مفيدا في بعض DYL‏ مثل عدم وجود 
أدوات للتعامل مع فضاء بحث كبير جدا أو الرغبة في بناء قاموس صغير نسبيا أو حتى 
عدم وجود نصوص كافية للحصول على عدد كبير جدا من الكلمات. ما سبق يتضح أن 
اختيار القاموس يجب أن يحتوي على بعد جديد» وهو التحليل الصرفي. 3( هذا الإطار 
يجب الإجابة عن أسئلة مثل: أي الكلمات ستخضع للتحليل الصرفي؟ وما هي السوابق 
واللواحق التي سيتم اختيارها؟ وكيف يمكن بناء الناذج اللغوية في هذه الحالة؟؛ 
ونعتقد أن الإجابة عن الأسئلة السابقة تعتمد على كمية البيانات المتاحة» وكذلك طبيعة 
النظام المستهدف؛ ويجب إجراء تجارب للوصول إلى أحسن تصميم للقاموس. 


١, ٤‏ - التعرف على اللهجات العامية 

بالإضافة إلى اللغة الفصحى المعاصرة التي تستخدم في الكتب والصحف ووسائل 
الإعلام» فإن للغة العربية لحجات عامية (دارجة) مختلفة» مثل: الشامية والخليجية. 
ومع أن معظم اللغات ها صبغة رسمية وأخرى عامية» فإن الاختلاف في اللغة العربية 
يمكن اعتباره كبيرًا جذا. 

ومع البعد عن المناقشة الفلسفية في الفرق بين اللهجة واللغة» Ul‏ نجد الاختلاف 
بين اللهجات العربية يتخطى الكلمات إلى الفونات؛ فعلى سبيل المثال» لا توجد «الجيم 
القاهرية» في كثير من اللهجات الأخرى. وكذلك فإن الكثير من الكلمات الشائعة في 
ind‏ ما لا توجد في لحمجات أخرى . 

ومما يزيد المشكلة تعقيدا أن اللهجات لا تكون مكتوبة» ولذلك لا توجد نصوص 
كافية لبناء الناذج اللغوية. وقد تم بناء نظم للتعرف علي اللهجات العربية المختلفة مثل 
المصرية والعراقية والشامية بنسبة خطأ * IY‏ وما لا شك فيه أنه مازال يلزم الكثير من 
العمل للحصول علي نظم تعرف علي اللهجات ذات دقة كبيرة. 
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E Ron j 
بنشرها ورقياً أو تداولها تجاري‎ uu 
ولا يسمح ب‎ 


المحث الثاني 


تُظم تحويل SI‏ إلى كلام 


-١‏ التوصيف اللغوي. 
شارات الكلام. 


-ه/ا _- 


هذه الطبعة إهداء من SAM‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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نُظم تحويل uai‏ إلى كلام 
(Text to Speech - TTS)‏ 


إن نظم تحويل النص إلى كلام - كا يوحي اسمها - تقبل النص في لغة ما وتنتج 
ذبذبات الكلام المناظرة لهذا النص. وفي أبسط صورها يمكن هذه النظم تسجيل 
الإشارات المناظرة للنص المراد نطقه؛ ولكن هذه الطريقة تظل مرتبطة بنطق عدد محدود 
من dese‏ 

لذلك فإن الصورة العامة لنظم تحويل النص إلى كلام تعتمد على تخليق الكلام من 
بعض الوحدات الصوتية؛ ولذلك فإن الحصول على هذه الإشارات التخليقية بجودة 
تقترب من الكلام الطبيعي هو الهدف الأسامي هذه النظم. 

وعادة تنقسم نظم تحويل النص إلى كلام إلى جزأين أساسيين» يقوم الجزء الأول 
بتحويل النص إلى «توصيف لغوي». ويقوم الجزء الآخر بتحويل التوصيف اللغوي 
إلي إشارات الكلام؛ ويكون الجزء الأول معتمدا على اللغة ويحتاج إلى الكثير من الخبرة 
اللغوية في حين أن الجزء NT‏ لا يعتمد على اللغة» GL s‏ يعتمد في الأساس على البيانات 
المسجلة (بالطبع فإن البيانات المسجلة يجب أن تكون من اللغة المراد نطقها). 

وسنقوم فيا يلي بعرض سريع لتكوين التوصيف اللغوي دون الدخول في تفاصيل 
مع التركيز على الجزء الآخرء وهو المعنِيٌ بإنتاج إشارات الكلام من التوصيف اللغوي. 
ولإنتاج الكلام تاريخ طويل يعود إلى نظم ال CFormant)‏ والدايفونات. 

(UG‏ هذا الفصل» فسوف نتناول الطرق الكثيفة الاستخدام للبيانات؛ وهي طرق 
اختيار الوحدات» والطرق الإحصائية التي تستخدم ناذج ماركوف المخفِيّة» وهي 
واسعة الانتشار الآن. 
-١‏ التوصيف اللغوي 

يتكون التوصيف اللغوي - في أبسط صورة - من تحويل النص إلى سلسلة من 
الفونييات. أي: يجب أن تتوافر أداة لتحويل النص إلى فونيمات Ut‏ يسمى عادة بأدوات 
الجرافيم - إلى- فونيم (Grapheme to phoneme)‏ وهذه الأدوات تكون إما لغوية 
باستخدام قاموس وبعض القواعدء أو إحصائية قائمة على التدريب باستخدام الأمثلة؛ 
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وفي بعض الأحيان يتم المزج بين القواعد اللغوية والإحصائية؛ وفي اللغة العربية - حيث 
يكتب النص في أغلب الأحيان بدون التشكيل - فإن وجود أداة لإضافة التشكيل قبل 
التحويل لفونيات تعد أساسية للحصول على التوصيف اللغوي. وعادة يتم معالجه النص 
قبل تطبيق أدوات الجرافيم - إلى - فونيم. فعلى سبيل JEU‏ يتم تحويل الأرقام والتواريخ 
وعلامات الترقيم إلى نص؛ وبالإضافة إلى تحويل الجرافيمات إلى الفونيهات فإن التوصيف 
اللغوي يحتوي على معلومات عديدة من نفس الكلمة» مثل: الفونيهات المجاورة وعدد 
المقاطع في الكلمة وموقع المقطع. وكذلك معلومات عن الجملة» مثل: موقع الكلمة في 
الجملة وعلامات الترقيم المستخدمة. وبالإضافة إلى ذلك فإنه يتم استخدام معلومات 
عن المتحدث ونوع الأسلوب (خبري أو استفهامي) وحالة المتحدث. 

وتتكامل هذه المعلومات مع سلسلة الفونييات لاختيار أكثر الوحدات مناسبة 
لتخليق الكلام. فعلى سبيل المثال» تُستخدم هذه المعلومات لاستنتاج امتداد الوحدة 
والتردد الأسامي ها. وما سبق يتضح أن أدوات التوصيف اللغوي يمكن تقسيمها إلى 
ما يلي: أدوات لمعالجة النص» مثل: التشكيل الآلي» وأدوات لتحويل الجرافيم إلى فونيم» 
وأدوات للتعامل مع المعلومات على مستوى الكلمة والجملة والمتحدث. وترتبط هذه 
الأدوات ارتباطا وثيقا باللغة التي يتم التعامل معهاء وتتطلب معرفة دقيقة بخصائصها 
وكيفية توصيفها. 

-و لخصوصية هذه القواعد واختلافها من لغة إلى أخرى فإننا لن نتطرق إليها بالتفصيل. 
-Y‏ إنتاج إشارات الكلام 

كما أشرنا سابقاء op‏ إنتاج إشارات الكلام الحديثة يتم باستخدام إحدى طريقتين؛ 
طريقة اختيار الوحدات والطريقة الإحصائية؛ وسنتعرض لكلتا الطريقتين فيا يلي: 

Y, Y‏ — طريقة اختيار الوحدات 


تعتمد طريقة اختيار الوحدات - كا يوحي الاسم - على تسجيل قاعدة بيانات 
aditus‏ ها cath tus‏ لعل االات dates‏ 
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يتم تسجيل عدة ساعات» أي عدة آلاف من الجمل من متكلم واحد» ويراعى 
الحصول على تسجيل نقي» کا يُراعى اختيار الجمل بحيث تناسب ما سيتم نطقه في 
بعد ثم eL‏ الجمل إلى وحدات فونيمية؛ وعلى الرغم من أن وسيلة التقسيم ليست 
ذات أهمية كبرى» ob‏ ناذج ماركوف Kaali‏ تستخدم في هذا السياق. وتُشير إلى 
أن استخدام ناذج ماركوف هنا فقط لتقسيم الكلام وليست لإنتاجه (CS‏ في الطريقة 
الإحصائية التي سيتم تفصيلها لاحقا. 

يتم تسجيل عدة آلاف من الجمل من متحدث واحدء ويتم بناء الناذج الفونيمية. 
في حقيقة الأمر يتم بناء ناذج تعتمد على السياق» مثل التراي فون أو غيره | كما أورّدنا 
في المبحث المعنيٌ بالتعرف على الكلام. 

وللتذكرة op‏ ناتج هذه الناذج يكون شجرة القرار لكل فونيم» والتي تعبر عن 
هذا الفونيم في السياقات المختلفة» حيث تمثل كل ورقة فيها وحدات هذا الفونيم التي 
تتشارك في السياق - أو بعبارة أخرى - التي لها سياقات متشابهة؛ ويتم JEE‏ كل ورقة 
بخليط (جاوس) كما سبق أن فصلنا. 

وبعد بناء هذه الناذج» يمكن استخدامها لتقسيم إشارات الكلام إلى فونيمات» أي 
معرفة متى يبدأ وينتهي كل فونيم في الإشارة ا معطاة. Gg g‏ هذه العملية ب «التقسيم» 
(segmentation)‏ . وبعد المرور على إشارات الكلام كلها يتم ربط عدد من المقاطع 
بكل ورقة من أوراق شجرة القرار لكل فونيم. فعلى سبيل المثال» بعد إجراء التقسيم 
يتم تجميع كل المقاطع التي تنتمي إلى الفونيم / ب/ . ولكل مقطع يتم ا مرور على شجرة 
القرار المناظرة للوصول إلى الورقة المناسبة. وللتذكرة فإن الوصول إلى الورقة يتم عن 
طريق الإجابة عن أسئلة خاصة بالسياق (الفونيمات المجاورة في أغلب الأحيان). des‏ 
سبيل المثال» إذا اعتبرنا الفونيم / ب/ في كلمة «كبير» فإنه يمكن الوصول إلى الورقة 
المناسبة عن طريقة الإجابة عن أسئلة السياق الفونيمي (الفتحة / و / ى/ في هذه ا حالة) 
اختيار المقاطع (الوحدات) لإنتاج الكلام 

سنفصل فيا يلي كيفية إنتاج كلمة «كبير» كما في المثال السابق. وسنفترض أن لكل 
فونيم شجره قرار واحدة» وليس لكل حالة من الفونيم للتسهيل» ولأن ذلك أكثر 
شيوعا في نظم إنتاج الكلام. 
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إن كلمة «كبير» تتكون من السلسلة الآتية من الفونييات: 
Ik/ lal Ib/ 111 [v]‏ 
ويمكن كتابتها كتريفونات کا يلٍ: 
/#-k-a/ /k-a-b/ /a-b-I/ /b-I-r/ /I-r -#/‏ 

حيث # هو فونيم يعبر عن بداية ونهاية الكلمة» وحيث يؤخذ سياق الفونيم في 
الاعتبار عند كتابة كل تريفون. ويتم إضافة الفترة «(duration)‏ والنغمة (pitch)‏ لكل 
تريفون. ويمكن حساب الفترة المستهدفة والنغمة المستهدفة باستخدام عوامل كثيرة 
اعتهادًا على التوصيف اللغوي المصاحب وموقع الفونيم في الكلمة والموقع في الجملة 
وعلامات الترقيم وحالة المتحدث. ولن نتطرق بالتفصيل هذه النقطة لعدم وجود 
دراسة قياسية شائعة الانتشارء بالإضافة إلى أن ذلك يعتمد بدرجة كبيرة على اللغة 
وعلى التوصيف اللغوي؛ كا ننا نعتقد أن اللغة العربية بحاجة لكثير من العمل في هذا 
المجال. وبعد إضافة الفترة والنغمة المستهدفة لكل تريفون يمكن المرور علي شجرة 
القرار المناسبة والوصول إلى الوحدات المرتبطة بالورقة المناسبة . 
حساب التكلفة كالآتي: 

التكلفة الكلية - تكلفة الفترة + تكلفة النغمة + تكلفة اللصق 
وحيث نحسب تكلفة الفترة والنغمة حسب بعدهما عن الفترة والنغمة المستهدفين؛ 


-Y , Y‏ الطريقة الإحصائية: نهاذج ماركوف المخفيّة 

لقد عرضنا فيها سبق ناذج ماركوف المخفِيّة في مجال التعرف على الكلام؛ ولكن 
يمكن استخدامها أيضا في إنتاج الكلام. فعلى سبيل JEU‏ نعتبر التريفون / /k-a-b‏ 
ثلاثي الحالة وكذلك colo‏ جاوس البسيطة. إن استخدام هذا النموذج لإنتاج الكلام 
يؤدي في أبسط صورة لاستخدام متجهات المتوسط الحسابي لكل حالة مكررة حسب 
احتالات الانتقال لكل حالة. ولكن هذه الطريقة المبسطة تؤدي إلى جودة متدنية 
للكلام oU‏ التّاليين: 


A4 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


* تكرار المتوسط الحسابي بدون أخذ السياق في الاعتبار. 

٠‏ تكلفة عالية للصق لعدم اعتبار الوحدات المجاورة. 

وللتغلب على هذا فقد تم استخدام احتمالات المشتقة الأولى والثانية في إنتاج الكلام. 
ومعاملات المشتقة واسعة الانتشار في التعرف على الكلام هي عبارة عن مزج خطي بين 
متجهات الطيف. وعلى سبيل JE‏ فإن المشتقة الأولى عند الزمن (t)‏ للكبسترم C(D‏ 
يمكن كتابتها کا Lue‏ " 
DC(t) — 3 kC(t— &)‏ 

k=-2 

وكا يتضح OB‏ هذه المعاملات تأخذ السياق والوحدات المتجاورة ضمنيا في 
الاعتبار. ودون الدخول في التفاصيل الحسابية op‏ إنتاج الكلام باعتبار المشتقات 
يؤول إلى حل مجموعة معادلات من الدرجة الأولى؛ los‏ أن تدريب ناذج ماركوف يتم 
عادة في فضاء الكبسترم أو أي فضاء آخر مشابه» ولا يتم في فضاء الإشارة الزمنية» فإنه 
يلزم وجود مرشح لإنتاج إشارات الكلام بدءً من المتجهات المنتجة. ويمكن استخدام 
المرشحات المستخدمة في تحليل الكلام لهذا الغرض. 

فعل سبيل الثال» بمعرفة معاملات التنبؤ الخطي linear prediction)‏ 
25 والاستثارة (excitation)‏ يمكن إنتاج الكلام باستخدام مرشح 
التنبؤ الخطي المعروف. وني أول أعمال إنتاج الكلام باستخدام النهاذج الإحصائية تم 
استخدام مرشح قائم على معاملات (كبسترم ميل) (MFCC)‏ المعروفة بجودتها لبناء 
ناذج (ماركوف). وكا ذكرنا في سياق هذا الفصلء op‏ إنتاج الكلام يحتاج إلى نماذج 
للنغمة والفترة. وبا أن للنغمة طبيعة منفصلة» فإنه عند المزج بين معاملات الطيف 
والنغمة يتم استخدام ناذج تمزج بين التوزيعات المتصلة والمنفصلة. إن ناذج ماركوف 
تستخدم ضمنيا ناذج هندسية للفترة؛ ومن المعروف أنها غير دقيقة في التنبؤ بفترة 
الوحدات؛ وبين| لا يمثل ذلك مشكلة كبيرة للتعرف على الكلام فإنه من الأفضل 
استخدام ناذج أكثر دقة عند إنتاج الكلام. لذلك يتم - في بعض الأحيان = استخدام 
ما يسمى بناذج شبه- ماركوف المخفية (Hidden semi-Markov Models)‏ 


—AY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


ولتلخيص ذلك فإنه عند إنتاج الكلام يتم عادة بناء نهاذج شبه- ماركوف المخفيّة 
والمزج بين التوزيعات المنفصلة لمعاملات النغمة المتصلة للطيف» ويتم استخدام 
المشتقات لفرض الاتصال حين إنتاج إشارات الكلام. 
وفيا يلي سنبين كيفية إنتاج إشارات الكلام لكلمة «كبير». وكم| سبق فإننا نقوم 
بكتابة التراي فونات المناظرة. 
/#-k-a/ /k-a-b/ /a-b-I/ /b-I-r/ /I-r-&/‏ 


ولنأخذ التراي فون /a-b-1/‏ كمثال. لكل حالة من التراي فون يتم التنبؤ بعدد 
متجهات السّمات حسب توزيع الفترة للحالة» ويتم إنتاج متجهات eI‏ لكل من 
متجهات الطيف والنغمة باستخدام توزيعات التراي فون مع أخذ المشتقة الأولى والثانية 
في الاعتبار باستخدام المتجهات والنغمة والمرشح المناسبء وعليه يتم el]‏ إشارات 
الكلام» ويتم تكرار ذلك لكل تراي فون. 

وكما ذكرنا سابقاء فإن طريقة اختيار الوحدات تؤدي إلى كلام عالي الجودة إذا توفرت 
قاعدة بيانات كافية لتغطية السياقات المختلفة» ولكنها تفتقد المرونة في تغيير نوع الكلام 
أو المتكلم. 

وتقع الطريقة الإحصائية على الجانب الآخر» فهي تتيح مرونة كبيرة لتغيير المتكلم أو 
نوع الكلام باستخدام التحويلات الخطية واسعة الانتشار في نظم التعرف على الكلام 
ولكنها في نفس الوقت - ونتيجة لأخذ المتوسطات أثناء التدريب- قد تؤدي إلى كلام 
أقل جودة من أفضل نظم اختيار الوحدات؛ ولكنها تبقى طريقة ذات دقة مناسبة ومرنة 
في نفس الوقت. 

ولتحسين جودة الطريقة الإحصائية فقد تم دراسة بعض الطرق في السنوات الأخيرة» 
من أهمها: 

* طريقة مصفوفة التباين العامة (Global Covariance Matrix)‏ وذلك لتلافي 

تأثير المتوسطات في إنتاج الكلام. 
* تدريب الناذج باستخدام أقل خطأ في التوليد. 


—AY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
OO‏ 


المبحث الثالث 


p 4 às ^‏ 
نظم التَّعَرّف على اللغة والمتّكَلم 


انظ التعرف عل اللّغة: 
-Y‏ نظم التعرف على المتكلم. 


AP 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقياً أو تداولها botes‏ 





E 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


في هذا المبحث سنعرض نظم التعرف على اللغة ثم نشرح نظم التعرف على المتكلم. 
ولهذه النظم تطبيقات عديدة في ختلف المجالات. 


-١‏ نظم التعرف على اللّغة 

إن ال هدف في نظم التعرف على اللغة هو معرفة أي لغة نطقت بمعرفة ذبذبات كلام 
ما. وتكون المدخلات للنظام هي عدة ثواني من ذبذبات الكلام» يحدد النظام على 
أساسها اللغة التى نطقت به من بين عدة لغات معروفة لديه. وفي بعض الأحيان تشمل 
هذه النظم نظم التحقق من اللغة» بمعنى أن لدينا إشارة كلام ولغة ما ونريد التحقيق É‏ 
إذا كانت هذه الذبذبات تنتمي هذه اللغة آم لا. ولكن في هذا الفصل سنكتفي بعرض 
نظم التعرف على اللغة لتشابه الطرق المستخدمة. 

باعتبار ذبذبات الكلام - أو لنكون أكثر دقة متجهات السَّمات المناظرة - X‏ فإنه 
يمكن صياغة مسألة التعرف على اللغة كما يلى: 


argmax 


i* 1 P(l|x) 


حيث L‏ مجموعة من اللغات المعرّفة للنظام. وهكذا تصبح المسألة تطبيقًا بسيطًا 
لقواعد التعرف على الأنماط. 

ومن الناذج الشائعة في هذا المجال استخدام نماذج خليط (جاوس) لكل لغة من 
اللغات المراد التعرف عليهاء ويتم تدريب هذا الخليط من متجهات السَّمات التي تنتمي 

ويمكن استخدام هذه النماذج لحساب الاحتمالات في المعادلة السابقة عند التعرف 
على اللغة» ويسمى هذا الأسلوب «الأسلوب الأكوستيكي» لأنه يستخدم الإشارات 
الأكوستيكية بشكل مباشر. ومن المعروف أن هذا الأسلوب لا يعطي نتائج جيدة جدا 
للتعرف على اللغة» oos‏ يعود ذلك لتداخل عوامل كثيرة - بالإضافة إلى اللغة - في 
الإشارة الأكوستيكية» مثل: المتكلم والتسجيل. وبجانب الأسلوب الأكوستيكي»› 
فإن ما يسمى ب «الأسلوب الفونوتيكي» واسع الانتشار في نظم التعرف على اللغة. 


—A0- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
$5 ييا 


وني الأسلوب الأخير يتم استخدام نظام للتعرف على الفونييات. ومن المدهش أن هذا 
النظام لا ينتمي بالضرورة إلى أي من اللغات المراد التعرف عليها. وبعد تمرير الإشارات 
في اللغات المراد التعرف عليها على نظام التعرف الفونيميء فإنه يتم بناء نماذج التحو 
الإحصائى (N-gram)‏ لكل لغة على الفونيهات الناتجة. والفكرة الأساسية هنا أن 
سلاسل الفونيمات الناتجة تستطيع التمييز بين اللغات المراد تمييزها. 

ومن البديبي آنه يمكن استخدام هذه الطريقة للتمييز بين أي عدد من اللغات. ومن 
المعروف أن الطريقة الفونيتيكية تؤدي إل نتائج تمتازة في التعرف على اللغة» ربا لأنها 
أقل تأثرا من الطريقة الأكوستيكية بالمتغيرات» مثل المتحدث والتسجيل. 

ويمكن تعميم وتحسين الطريقة الفونوتيكية باستخدام عدة نظم للتعرف الفونيمي» 
وليس بالضرورة من اللغات التي يراد تميبزهاء ثم بناء (N-gram) zole‏ اللغوية لكل 
لغة ونظام فونيمي. 

فعلى سبيل المثال» للتمييز بين اللغة O‏ واللغة (ب» يمكن استخدام نظام فونيمي للغة 
(e‏ واللغة «د)؛ ومن ثم بناء نماذج لغوية (أج) و«أد) و C‏ جا ١ب‏ د). ويسمى هذا 
النظام «النظام الفونوتيكي المتوازي»» ويؤدي إلى نتائج أفضل من النظام الفونوتيكي» 
ولكن بالطبع مع زيادة حجم cte)‏ والعمليات الحسابية المصاحبة. 

وعلى الرغم من أن الأسلوب الفونونيكي يبدو الأفضل في نظم التعرف على اللغة» 
فإن مزج الأسلوبين الفونومنيكي والأكوستيكي يؤدي في أغلب الأحيان إلى نتائج أفضل» 
ويتم هذا المزج بطرق عديدة. ففي أبسط صورة يمكن بناء نظامين منفصلين (أحدها 
فونونيكي والآخر أكوستيكي) ومزج نتيجة النظامين للحصول على النتيجة النهائية. 


-Y‏ نظم التعرف على المتكلم 

تستخدِم نظم التعرف على المتكلم - كما يوحي الاسم- إشارات الكلام للتعرف 
على المتكلم. وتنقسم هذه النظم إلى نوعين؛ في النوع الأول يكون لدينا مجموعة من 
المتكلمين ويدف النظام إلى معرفة إلى أي منهم تنتمي إشارة الكلام المدخلة. أما في 
النوع الآخرء وهو التحقيق» فإنه يعطي UJ‏ متكلًا ومهدف النظام إلى معرفة إذا كانت 


AMT 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


إشارة الكلام المدخلة صدرت من هذا المتكلم el‏ لا. وللنوع الثاني تطبيقات كثيرة إذ 
يمكن استخدامه للتحقق من البيانات مثل استخدام بصمات الأصابع أو العين وكذلك 
يمكن استخدامه بجانب كلمة السر (password)‏ وتتشابه الطرق والناذج المستخدمة 
في كلا النوعين ولذلك أننا سنتطرق إلى الطرق المستخدمة في التحقق من المتكلم. 
وللتحقق من المتكلم S‏ باستخدام إشارة الكلام × فإن الهدف يكون التأكد بأن 
X‏ تنتمي إلى 5 آم لا. وهذا يلزم وجود نموذج للمتكلم لحساب الاحتمال P(X|S)‏ 
وكذلك نموذج للخلفية (background)‏ لحساب P(X | background)‏ أو للتسهيل 
P(X|S)‏ 


P(X | b)‏ وعادة يتم الحكم بأن الإشارة X‏ تنتمى إلى S‏ ]15 كان ناتج القسمة 


أكبر من قيمة حددة † تسمى العتبة (threshold)‏ 


ولفترة طويلة ظلت ناذج خليط (جاوس) تستخدم للتعبير عن المتكلم والخلفية. 
فيمكن تجميع عدد من متجهات السات من المتكلم واستخدامها لبناء نموذج خليط 
(جاوس) بالطرق التقليدية. 

وكذلك يمكن تجميع متجهات السات من عدد كبير من المتكلمين واستخدامها 
لبناء نموذج الخلفية. ولتقليل كمية الكلام المطلوب الحصول عليه من المتكلم لتسجيله 
في النظام فإنه يمكن بناء نموذج خلفية من عدد كبير من المتكلمين ثم باستخدام طرق 
التكيف (adaptation)‏ للحصول على ce‏ المتكلم. ومن المدهش أن نفس متجهات 
السّمات المستخدمة في التعرف على الكلام يتم استخدامها في نظم التعرف أو التحقق 
من المتكلم وهي معاملات الكبسترم ومشتقاتها. وعلى الرغم من أن نظم التعرف على 
الكلام تهدف إلى تحييد تأثير المتكلم فإن المتجهات المستخدمة فيها تؤتي نتائج طيبة جدا 
عند استخدامها في التعرف على المتكلم وتكون أفضل من الخصائص ال معروفة بارتباطها 
ارتباطا وثيقا بالمتكلم مثل النغمة. ويمكن من الناحية اللغوية أو الأكوستيكية دراسة 
سيسات تؤدي إلى تحسين نظم التعرف أو التحقق من المتكلم. 

وفي الجيل الأحدث من نظم التحقق من المتكلم يمكن النظر إلى المسألة على أنها 
مسألة تصنيف c(classification)‏ ويمكن بناء مصنف لتحديد: هل تنتمي إشارات 
الكلام إلى متكلم معين أم لا. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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وا تم استخدام الات المنّجهات الدّاعمة (Support Vector Machine)‏ 
لهذا الغرض. ومن الممكن بناء المصنف باستخدام متجهات السات التي تماثل تلك 
المستخدمة في ناذج جاوس ولكن يمكن أيضا المزج بين ناذج خليط (جاوس) 
والمصنفات. فيمكن بناء c3‏ خليط (جاوس) كا سبق أن ناقشنا ثم يلي ذلك بناء 
مصنفات في فضاء مكون من التوزيعات الاحتالية لكل مكون من مكونات الخليط. 
وعادة تعطى الطريقة الأخيرة نتائج جيدة جدا للتحقق من المتكلم. 

ولتقييم طرق التحقق من المتكلم فإنه يوجد نوعان من الأخطاء؛ في النوع الأول يتم 
قبول إشارة ما في حين أنها لا تنتمي إلى المتكلم المراد» ويسمى هذا النوع من الأخطاء: 
أخطاء التنبيه الخاطئ (false alarm)‏ وفي النوع الآخر لايتم قبول الإشارة بالرغم من 
P‏ تنتمي إلى المتكلم المراد» وتسمي هذه بأخطاء الإخفاق .(misrecognition error)‏ 

ويتم تصميم النظام عند نقطة تناسب التطبيق المستخدم لأصله. فمثلا عند استخدام 
النظام لوصول إلى الحساب البنكي فإن تكلفة التنبيه الخاطئ تكون أكبر كثيرا من تكلفة 
الإخفاق. 


-//- 
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تطبيقات مُعالجة اللغة العربيّة .2 مجال التعليم 


د. شريف مهدي عبده 


-١‏ تقنيات معالحة اللغات الطبيعية. 
-Y‏ تعلم النطق باستخدام تقنية التعرف NI‏ على الكلام. 
-Y‏ تعلم الكتابة باستخدام تقنية التعرف JYI‏ على ALII‏ 


Éim مقترحات‎ - 5 


Lp 


هذه الطبعة إهداء من SAM‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 





- rm 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


يُستخدم الحاسوب في تعلّم اللغات بصورة خاصة؛ لتعلّم مهارات اللغة» سواء 
أكانت اللغة الأم» أم اللغة الأجنبية» أو ما يسمى باللغة الثانية. وتُستخدم تكنولوجيا 
الحاسب الآلي أداة تعليمية تساعد متعلمي اللغة لتطوير مهاراه تمم اللغوية» وتمثل بذلك 
عنصرًا مكملاً بالإضافة إلى طرق تعليمية أخرىء ما يساعد على خلق بيئة تعليمية 
نشطة وغنية لكو ا me‏ موسوعة ويكيبيديا استخدام الحاسوب في تعلّم اللغات 
باه استخدام تكنولوجيا الحاسب الآلي لتقديم وتعزيز وتقييم المادة المراد أن يتعلمها 
الطالب» وذلك من خلال الاستفادة من ميزات الحاسوب التفاعلية وأناطه التعليمية 
FXRESIPEFCSUHATSP‏ 


-—- 


العشرين ]0[ وتطورت برامج تعلّم اللغة الإنجليزية بمساعدة الحاسوب مع 
بداية الثانينيّات» a s‏ استخدام الحاسوب باعتباره مساعدًا في تعليم اللغات وتعلمها 
بمراحل ثلاث. S]‏ بدأت المرحلة الأولى فكرة في الخمسينيّات» VEEM PETOA y‏ 
وقامت على أساس النظرية السلوكية التي عدّت الحاسوب أداة مثالية للتعليم؛ EY‏ 
يسمح بتكرار تعلم المادة مرات عديدة [Y‏ 

Ul‏ المرحلة الثانية فقد بدأت في السبعينيّات» واستمرت خلال الثانينيّات» وقامت 
على مبادئ نظرية التواصل؛ وكان سبب انتشار هذه النظرية هو الانتقادات التى 
تعرّضت لا النظرية السلوكية؛ ذلك أن البرامج التي تقوم عليها النظرية TE‏ 
تعتمد على التكرار؛ وهي بذلك تفتقد عامل التواصل» حيث تقوم نظرية التواصل على 
استخدام الطالب للغة في أغراض واقعية؛ ويتم تقييم الطالب بناءً على إعطائه الإجابة» 
وليس من خلال الأخطاء التي يرتكبها [Y]‏ وقد تم تطوير العديد من البرامج التي 
محا igi E SS‏ سر Pia‏ 

ونا قيضت Ld‏ مج التي تقوم على نظرية التواصل للانتقاد بسبب عدم وجود 
نظام واضح وفاعل لاستخدام الحاسب الآلي في تطوير برامج تعليمية حديثة معتمدة 
يمكن أن تحل محل البرامج التقليدية ظهرت برامج تقوم على عنصر التفاعل بين الطالب 
والمادة العلمية AREA‏ على الحاسوبء وبدأ ظهور تطبيقات ذكية وتفاعلية لتعليم 
اللغات توظف تقنيات المعالحة الآلية للغات لتوفير بيئة تعليمية تفاعلية PU‏ المعلم في 


وقد بدأ استخدام الحاسوب فعليًا في تعلّم اللغات في الستينيّات من القرن 
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الفصل الدراميّ. وبعض هذه التطبيقات الشهيرة مثل المصحح JYI‏ لأخطاء الإملاء 
والمصحح (e AUI‏ للأخطاء النحوية التي يستخدمها بالفعل كثير منا في برامج الكتابة 
مثل برنامج (MS Word)‏ الشهير. 

تعتبر برمجيات تعليم اللغات عنصرًا Ceo‏ ومكملاً للمعلم في الفصل الدرامي. 
فالدارس يستطيع استخدام هذه البرمجيات للتدريب على مهارات اللغة المختلفة لعدد 
غير محدود من ساعات التدريب في (d‏ وقت ومكان ملائم له [Y 0M‏ وتتركز 
استخدامات تقنيات اللغة في التعليم في ثلاثة تطبيقات أساسية» هي: استخدام 
تقنيات ShU iilo‏ الطبيعية (Natural Language Processing)‏ في تعليم 
وتركيب colo all‏ والجمل الصحيحة cO A‏ واستخدام تقنية التعرف الآ على الكلام 
à (Automatic Speech Recognition)‏ تعليم مهارة النطق» واستخدام تقنية 
QI c xi‏ على الكتابة CAutomatic Handwriting Recognition)‏ في تعليم مهارة 
الكتابة. وفيهما يلي نوضح كيفية توظيف هذه التقنيات في جال تعلم اللغة. 


(NLP) تقنيات معالحة اللغات الطبيعية‎ -١ 

تساعد تقنيات معالجحة اللغات الطبيعية في Jle‏ تعلم اللغة الطلاب على التعرف على 
التركيب الصحيح للمفردات اللغوية وقواعد بناء الجمل في تركيب سليم طبقا لقواعد 
انعو n‏ 


ففي خطوات التعلم الأولية لمفردات اللغة العربية يمكن استخدام المدقق QI‏ 























مدرسه والصّواب: مدرسة 
صوط والصّواب: صوت 

أبراهيم والصَّواب: إبراهيم 
زبابة والصَّواب: ذبابة 





وهناك أساليب متعددة لبناء المدقق «LI‏ أشهرها هو استخدام قاموس 


s 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
oo EE EN‏ ^ 


ونظرًا لتميز اللغة العربية بخاصية الاشتقاق الصرفٌ الغزير» يوجد في هذه اللغة 
عدد ضخم من colo all‏ ما يزيد من صعوبة استيعاب الطالب هذا الكم من 
colo all‏ وخاصة في المراحل الأولية من تعلم اللغة. لذلك يمكن استخدام تقنية 
معالج الصرف الآلِيّ لمساعدة الطالب في التعرف على قواع د الصرف للغة 
العربية وتطبيقها على العديد من الأمثلة. ويمكن أيضًا استخدام معالج الصرف 
الآليّ لتحليل المفردات التى يكتبها الطالب والتأكد من صحتها طبقا لقواعد اللغة 
ولحم lal‏ ندري للاتخا عله Àj pal Ael all‏ 

وعلى مستوى بناء الجمل يمكن استخدام المحلل النحويّ NI‏ لتحليل البناء 
النحويّ للجمل التي ينشئها الطالب وتحكيم صحتها Úb‏ لقواعد النحو في اللغة 
العربية وتصحيح الأخطاء أو اقتراح عدد من الحلول في حالة توفرها كا في هذه الأمثلة: 











الحديقة جميلة جملة اسمية من مبتدأ وخبر 
xad dad:‏ جه قو Spaa‏ 

à فا‎ b فعلشة‎ ila Z 
ca يها > ية من فعل وفاعل ومفعول‎ 


ويلاحظ وجوب o seb‏ التنوين 
الشجرة جميل عدم تطابق النوع» cd alls‏ جميلة 
الأولاد يلعب عدم تطابق العدد. والصّواب يلعبون 
يلعب الأولاد جملة صحيحة 




















تتميز اللغة العربية بخاصية المرونة النحوية بفعل عمليات التقديم والتأخير والحذف 
والإبدال والإضمار ما يمثل تحديًا لمتعلمي قواعد النحو في اللغة العربية. ويوفر المحلل 
dg pou‏ الا ill‏ تي فان لاع فى (edel eto LES lai‏ م b‏ 
لقواعد النحو. 

كما تساعد أدوات الترجمة الآلية متعلمى اللغة الثانية MAS.‏ حيث توفر بعض 
الأدوات البسيطة — مثل ذاكرة ioci‏ فعالة لمعرفة المفردات والنصوص 
اللغوية والمقابل لما باللغة الأخرى. ومما لا شك فيه أن توفر خدمة الترحمة الآلية 
المجانية على بعض مواقع شبكة الإنترنت قد ساهم بدرجة كبيرة في انتشار تعلم اللغات 
الأجنبية على الرغم من تدني مستوى الدقة ا حالي لبرامج الترجمة الآلية» ولكنها تتطور 
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بسرعة كبيرة مع توفر النصوص المترجمة يدويًا واستخدامها لتحسين ناذج الترجمة في 
هذه البرامج. 

توجد طريقتان أساسيتان لاختبار المستخدم في أنظمة تعليم اللغات باستخدام 
الحاسب؛ الطريقة الأول هى أسئلة الاختيار من متعدد» والطريقة الأخرى هى 
الأسئلة الإنشائية حيث يترك للمستخدم حرية استخدام مهاراته اللغوية في AUS‏ 
الإجابة المطلوبة (S‏ 3( نظام (Arabic ICALL)‏ الذي تم تطويره في كلية الحاسبات 
جامعة القاهرة» حيث يوجه النظام المستخدم للتعرف على أخطائه والتوظيف الخاطئ 
للوحدات اللغوية. ويساعد هذا النظام المستخدم على الاستفادة من أخطائه وتعلم 
كيفية إجراء التعديلات اللازمة لتصحيح أخطائه؛ وفي هذا النظام يتم استخدام محلل 
أخطاء يستعين بأدوات معالحة اللغة العربية» مثل محلل صرق ومحلل eod‏ للتعرف 
المنهج التعليميّ للغة العربية الذي يتم تدريسه في المدارس المصرية في المرحلة الابتدائية. 
الشكل (1-7) يوضح مكونات نظام «(Arabic ICALL)‏ ويُّمَثْل واجهة المستخدم 
التفاعلية والمحتوى التعليميّ ومحلل الأخطاء اللغوية ووحدة تكوين ردود النظام. 


الطالب 


الإجابات 


الرسائل التوجيهية 


تصحيح الإجابة 


وحدة تكوين —Ó 252 JI‏ وحدة تحليل الأخطاء 


الشّكل ١-١‏ : الشكل التوضيحي لمكونات نظام (Arabic ICALL)‏ لتعليم قواعد اللغة العربية. 
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ويتبنى نظام (Arabic ICALL)‏ منهجًا (GU‏ على استخدام القواعد في التعرف على 
الأخطاء اللغوية؛ ويتميز هذا المنهج بقدرته على توفير تحليل تفصيلي لأخطاء الطالب 
اللغوية» حيث يستطيع تمثيل قواعد البناء اللغويّ طبقًا لنظم المعرفة اللغوية» وهذه 
القواعد تؤدي وظيفة مزدوجة لترميز البناء اللغويّ السليم» وأيضًا تكويد الأخطاء 
اللغوية المتوقعة على مستوى الصرف والنحو والدلالة» وتكون مصاحبة بالردود 
التعليمية المناسبة لكل خطأً. هذا المنهج Y‏ يضمن تغطية كل الأخطاء المحتملة» ويمكن 
تلافي ذلك بالتركيز على نطاق تعليميّ محدد» ولكنه يتميز بعدم احتياجه إلى قواعد 
بيانات ضخمة لتدريبه مقارنة Asl MU‏ التي 5 تتبنى ce‏ الإحصائي للتعرف على 
الأخطاء اللغوية. 


-Y‏ تعلم النطق باستخدام تقنية التعرف JYI‏ على الكلام 

حار JU‏ تعليم النطق باستخدام الحاسب GYI‏ على كثير من الاهتمام مؤخرًا. وقد 
تم إنجاز الكثير من الأبحاث في هذا المجال» لاسي) في أنظمة تعليم اللغات الأجنبية 
باستخدام الحاسب QVI‏ 

يقوم الطالب -في هذه التدريبات- بالتدرّبٍ على قراءة حرف أو كلمة أو حملة 
معروضة أمامه على شاشة الجهاز. ويتم استخدام تقنية التعرف JY‏ على الكلام 
لتحكيم قراءة الطالب وتحديد ما إذا كانت قراءته صحيحة أم خاطتة. 


DSSS. تعليم القراءة‎ edid تقنية نهاذج ماركوف المخفيّة الأكثر استخداما في‎ ais 
كل منها وحدةً من الوحدات الصوتيّة.‎ s نماذج ماركوف المخفيّة من عدد من التهاذج؛‎ 

وتقومٌ أنظمةٌ تعليم القراءة بتقييم جُملة a‏ الي : ذه Gloss‏ الك pala‏ 
هذه التاذج» حيث يتم تقطيع التسجيل JÉ Gall‏ من المستخدم إلى المقاطع 
الصوتية à‏ المختلفة ÉL‏ للكتابة الصوتية تية للمثال المستخدم في الاختبار. وتكون كل من 
هذه المقاطع الصوتية مصحوبة بتقييم إحصائيٌ يمثل درجة تماثل هذا المقطع Qoa!‏ 
مع ناذج ماركوف الخاصة بالوحدة الصوتية لهذا المقطع. يتم تقييم قراءة المستخدم 
عن طريق حساب متوسط تقيبهات المقاطع الصوتية تية المختلفة في العينة الصوتية تحت 
الاختبار؛ وإذا تخطت قيمة محددة (threshold)‏ يتم اعتبار قراءة المستخدم قراءة 
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صحيحة. ويتم اختيار القيمة المحددة (threshold)‏ من التجارب المعيارية للنظام على 


الصُوتيّة لصوت المستخدم 





تحليل أخطاء ghill‏ 


الشكل ۲-۳: نظام تحليل أخطاء النطق. 
ag‏ كرضي ad d e P d‏ 
في تطبيق التعرف JYI‏ على الكلام» مع اختلافٍ يتمثل في آنا في هذا التطبيق H‏ 
مسبقا الجملة التدريبية التي ينطقها المستخدم مما يساعد على تحديد نطاق البحث لمحرك 
التعرف I‏ الأمر الذي يساعد على تحسين دقة النتائج. ويكون نطاق البحث فقط في 





وه وأ- 


هذه الطبعة إهداء من OSA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


الصور المختلفة لأخطاء النطق في الجملة التدريبية المستخدمة» كا هو موضح بالشكل 
رقم (۳-۳). 





الشّكل Y-Y‏ مثال لأخطاء النطق في جزء من كلمة. 


يعتبر أسلوب تفاعل النظام مع المتعلم في التطبيقات التعليمية من أهم العناصر 
التي تؤثر في درجة استفادة المتعلم. لذلك يفضل - في تطبيقات تعليم القراءة - توفر 
درجة من الثقة في تقييم النظام لقراءة المستخدم لتقليل الحالات التي يصدر فيها تقييم 
خاطئع لقراءة الطالب؛ ويمكن à‏ هذه التطبيقات حساب مُعامل الثقة؛ ويستخدم هذا 
المعامل à‏ اختيار الرسالة المناسبة لتحكيم قراءة مستخدم النظام. هناك طرق متعددة 
تم اقتراحها لحساب هذا المعامل» من أفضلها معامل نسبة الأرجحيّة Likelihood)‏ 
0 الذي يتم حسابه عن طريق ترتيب المقاطع الصوتية في قراءة المستخدم بناء على 
التقييم La I‏ المصاحب ها؛ ثم يتم حساب معامل الثقة بالمعادلة التالية: 
متوسط تقييم ارجح مسار في نماذج ماركوف 
ple‏ الثقة - —— 
متوسط تقييم GG‏ أرجح مسار في نماذج ماركوف 


za 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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ويعتمد هذا المعامل على قيمة الاختلاف بين أرجح تقييم من البدائل المتاحة لنطق 
الكلمة موضع الاختبار والتقييم التالي في الترتيب؛ فوجود اختلاف كبير يدل على 
وجود درجة عالية من الثقة في تحكيم النظام لقراءة المستخدم. 

وتعتمد الرسائل التصحيحية في هذا النظام على مدى ثقة النظام من النتائج (معامل 
الثقة)؛ وإذا كان معامل الثقة صغيرًا يسير النظام على إحدى هذه الطرق: 

Y‏ - إهمال الخطأ GE‏ وعدم ظهور رسالة له (وهذا جيد للمبتدئين» OM‏ إظهار إنذار 

خاطئ يثبط من عزم المتعلم). 

-Y‏ طلب إعادة الجملة من المستخدم لأا غير واضحة. 

-Y‏ إظهار رسالة توضح وجود خطأ غير حدد» وطلب إعادة الجملة. 

-٤‏ إظهار رسالة بأكثر الأخطاء شيوعًا في هذا الموضع. 


ويمكن تحسين أداء أنظمة تعليم القراءة بدرجة كبيرة عن طريق 
تكييف وتحويل النماذج الصوتية (Models Adaptation)‏ لتشابه خصائص صوت 
المستخدم. ومن أشهر طرق تحويل نماذج ماركوف طرق التحويل الخطيٌ. 
نظرًا لسهولة تنفيذها وفاعلية نتائجها. وفي هذه العملية يتم تجميع عدد قليل من 
الجمل من المستخدم لاختيار أقرب حزمة صوتية لصوت المستخدم؛ وهذه 
لحزمة تستخدم كنموذج مرجعي لصوت المستخدم. ثم يطلب من المستخدم 
إدخال عدد من الجمل يتم تحكيمها باستخدام هذا النموذج المرجعي. وإذا رأي 
النظام أن الجملة خالية من أخطاء القراءة يقوم بوضعها في المجموعة التي سيتم 
استخدامها في عملية تحويل النموذج الصوتي. تستمر هذه العملية حتى يتم تجميع 
كمية كافية من الجمل لباء عملية تحويل النماذج الصوتية باستخدام 
ويوضح الشكل رقم (5-7) رسًا توضيحيًا لعملية de do‏ في ce‏ 
ماركوف. 


zd i ues 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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النموذج المعدل للمستخدم 


0 





ولا 5 
الشكل -5: عملية تحويل النماذج الصوتية. 

ومن تطبيقات تعليم النطق التي تمثل درجة عالية من التحدي: استخدام الحاسب 
MI‏ في تعليم قراءة وتجويد القرآن الكريم. فبالمقارنة مع تطبيق تعليم اللغات - حيث 
توجد فروق واضحة بين النطق الصحيح والأخطاء - تحتاج بعض قواعد النطق في 
علم التجويد إلى درجة عالية من الحساسية من أجل الحكم بصحة تطبيق القاعدة 
التجويدية؛ ما يتطلب استخدام معالج CIT‏ للتعرف على الكلام ذي درجة عالية Mer‏ من 
الدقة. والتحدي الأكبر هو معالجة هذه التقنيات للأحكام التجويدية والفونييات فوق 
المقطعية التي ينبغي على دارس القرآن تعلمها. 

pil edes معي‎ lage gat ias atl t (071) JS eo 
تدرييات خاصة هذا الدرس» فيستمع المستخدم لتلاوة هذه التدريبات بصوت قارئ‎ 
ثم عليه أن يكررهاء فيقوم البرنامج بتوليد تقرير مكتوب ومنطوق عن قراءة‎ eli 
المستخدم يشرح له فيها أخطاءه التجويدية واللغوية ى| هو موضح بالشكل. ويظهر في‎ 
التقرير المكتوب المقطع الذي قرأه المستخدم مع تلوين الحرف أو الحروف التي فيها‎ 
الخطأ باللون الأحمر مع شرح للخطأ المرتكّب؟ ويتم توليد التقرير المنطوق بحيث‎ 
G po يظن المستخدم أن الحاسوب يفهمه ويتفاعل معه» لأنه يخبره بالخطأ‎ 
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ويتضمن التقرير الصوتيّ مثالا منطوقًا عن الحكم الذي كان فيه الخطأ من قبل 





بوجد أطاء: من فضلك انقر على الكلمة siae i nd‏ 















| اللام في هذا الموضوع لا يجوز تفخيمها ولا تفخيم الألف‎ ý 
التي بعدها. ا‎ d 


الشّكل -5: شاشة التدريبات في برنامج تعلم التجويد. 
ويوضح الشكل (5-7) نظام بناء الأخطاء التجويدية المستخدمة في هذا التطبيق؛ 


وهو يستخدم مجموعة من القواعد تم تصميمها بصورة مرنة JEKS‏ التعديل بالإضافة 
أو الحذف للأخطاء التي UA SE.‏ النظام .]٤[‏ 


۹£ 


هذه الطبعة إهداء من JSM‏ 2 
لا يسمح بنشرها ورقياً أو تداولها تجارياً 
a‏ $ 


محرك توليد الكتابة الصوتية 





شبكة أخطاء النطق طبقًا لأحكام التجويد. 
:٦-۳ Jen‏ محرك توليد n‏ 1 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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يعتمد توليد شبكة الأخطاء على محرك توليد الكتابة الصوتية للقرآن الكريم الذي 
يتكون من عدة طبقات؛ وهى محرك الأحداث الذي يبحث خلال الرسم العثماني للقرآن 
الكريم عن خصائص كل حرف ويولد له كودًا خاصًا 25 حالة نطقه (منطوق أو 
غير منطوق» مشدد أو غير مشدد. التشكيل الخاص بالحرف ...) وخصائصه الصوتية 
(مجهور» مهموس» مخرج الحرف» ...). ويقوم محرك توليد الكتابة الصوتية بتحليل هذه 
الأكواد/ الشّفرات وخصائص توليد الكتابة الصوتية الصحيحة طبقًا لأحكام تلاوة 
القرآن الكريم؛ ثم يقوم محرك مقارنة الناذج (القواعد) بتجميع كل هذه المعلومات 
وتوليد أخطاء التلاوة المتوقعة. 


والقاعدة الآتية توضح طريقة توليد الأخطاء الافتراضية: 


e a ente 

فونيم - Ph‏ نوع ا حركة- V,‏ طول الح ر كة= «Le‏ 
مشدد= S,‏ منطوق- P,‏ إدغام - E,‏ 

والوحدة السابقة: 

فونيم - Ph,‏ نوع ا خركة- V,‏ طول ا حركة- d,‏ 
مشدد= S,‏ منطوق - EP‏ 





رار د لاله 
Ph, =o‏ نوع الج ركة= cV,‏ طول الح ر كة= L,‏ 
مشدد= S,‏ منطوق- P,‏ 
I5]‏ أضف مسارًا طا التلاوة با لخصائص التالية: 
رقم (Coal‏ نوع الخطاً=1. كلمة WEILL‏ مقدار شيوع Foll‏ فونيم -50) نوع 
الح Vis‏ طول الحركة -.1» 872-152( P= phra‏ مدغہ=8 





وتستخدم هذه الناذج (القواعد) بعد توليدها للمقارنة مع الكتابة الصوتية للقرآن 
الكريم لتوليد شبكة مسارات الأخطاء المتوقعة. ويقوم مولد شبكة مسارات الأخطاء 
بترتيب النهاذج (القواعد) التي تطابقت بشكل تنازلي حسب مدى تطابقها مع الحالة 
الحالية ثم همل كل الناذج (القواعد) التي تولد نفس الخطأ ما عدا أوطاء ثم في 
النهاية تولد الشبكة بشكل يناسب نظام التعرف على الصوت. والوحدة المستخدمة 
في بناء شبكة الأخطاء في هذا الاختراع شبيهة بتلك التي تستعمل في طرق تعليم تلاوة 
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هذه الطبعة إهداء من OS AM‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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القرآن الكريم» حيث إن مفهوم الفونيم غير ملائم للمستخدم. وتتكون الوحدات 
في هذا النظام من حرف+حركة قصيرة» حرف+حركة طويلة» حرف ساكن» حرف 
مشدد+حركة قصيرة» حرف مشدد+حركة طويلة» حرف مشدد ساكن. 

تعد اختبارات الأداء العملية من أهم وسائل تقييم أنظمة تعلم القراءة لبيان دقتها 
de s‏ مد pos‏ لدى M pon p‏ ا xdi apte‏ 
لحلاف بخ اسو ب فى تيم اجرد من ريق التق مسب الاق 
والاختلاف في تحكيم الشيوخ المجازين لقراءة المتعلم العادي» تم تسجيل ثلاثمئة 
محاولة لنطق كلمات أو جمل تحتوي على أحكام تجويد محددة من شخص عادي» ثم طلب 
رع ا ارين ناي بجا مار E‏ ارط سا تي رما 
اتفاق تحكيم أي محكم مجاز مع آي محكم مجاز آخر في حدود ٠‏ وهي نفس نسبة 
اتفاق البرنامج مع آي من الشيوخ المجازين. والنسبة التي خالف فيها البرنامج إجماعهم 
حوالي /.٤‏ فقط» وهي نفس نسبة اختلاف آي من الشيوخ مع إجماع باقي الشيوخ. 


اختبارات الأداء 


$ 6 


Fi e لظ‎ © ws* 
| 78.8% | | zo 77.295 1 | 81.0% | | 78.7% | | 81.5% | 
d | G 6 € 
| 4.8% | | 7.8% | | 6.8% | | 2.0% | 


الشكل ۷-۳: توضيح لمدى اتفاق واختلاف المشايخ مع بعضهم البعض ومع برنامج تعليم التجويد. 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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وفي اختبار آخر لقياس أثر برنامج تعليم التجويد على تعلم الفرد المبتدئ لحكم 
أو أكثر من أحكام التجويد, تمت الاستعانة بمجموعة من الأفراد العاديين الذين لا 
يجيدون أحكام قراءة القران الكريم» ثم إجراء اختبار ES‏ - قبل استخدام التقنية = 
لتحديد مستوى المستخدم» ثم إتاحة الفرصة له للتعلم على الحكم أو القاعدة المطلوبة 
مع سماع أمثلة وناذج صوتية للحكم» وتم التركيز على قواعد ثلاث» هي: القلقلة» 
رقم اعفان اهعم ب أخرى يعد قارة من coi‏ - ساعة dede G5‏ 
البرنامج» ثم مرة ثالثة بعد ساعة تدريب أخرى . وأظهرت النتائج ارتفاع م: منحنى التعلم 
لمجموعة المستخدمين بنسب كبيرة حيث بدأ بنسب تقترب من ٠‏ 5/ وارتفع إلى ما يزيد 
فعالية التقنية وكفاءتها. ويوضح الشكل (AY)‏ متوسط نتائج المشاهدات التي أثمرتها 
التجربة مع عشرة مستخدمين. 

















إدغام ي القلقلتسهع إقلاب He‏ 


الشكل ۸-۳: شكل بياني لقياس أثر تقنية تعليم التجويد ني تطوير منحنى التعلم لدى المبتدئين. 





-Y‏ تعلم الكتابة باستخدام تقنية التعرف JI‏ على الكتابة 

مع توفر أجهزة الكمبيوتر اللوحيةء تم مؤخرًا تطوير تطبيقات لاستخدامها في تعليم 
مهارة الكتابة باستخدام تقنيات التعرف MI‏ على الكتابة» حيث توفر هذه الأجهزة 
شاشات تفاعلية يمكن الكتابة على سطحها. ويقوم التطبيق بتحكيم درجة جودة كتابة 
الطالب Úb‏ لقواعد كتابة الخط العربي. 


xA‏ أت 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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ولقد قام فريق بحثيٌ في LIS‏ الحاسبات بجامعة القاهرة بتطوير تطبيق لتعليم كتابة 
الخط العربيّ للأطفال في المراحل التعليميّة الأوّليّة. ويساعد هذا التطبيق الطفل على 
تحسين جودة خطه باستخدام مستويين من التّدريبات بصورةٍ مشامة لتدرّج تعليم 
الكتابة في دُرُوس BL‏ العري في مناهج التعليم للمرحلة الابتدائية؛ المستوى الأول 
هو الكتابة الموجهة للدروس الأولية لتعليم الكتابة باستخدام صور منقطة لأشكال 
الحروف المختلفة؛ GT‏ المستوى الثاني فهو الكتابة الحرة» حيث يمارس الطالب التدريب 
على الكتابة بصورة غير مقيدة. 

في تدريبات المستوى الأول» يقوم الطالب بالتدرّبٍ على كتابة حرف أو كلمة أو 
جملة معروضة أمامه على شاشة الجهاز» حيث يتم عرض صورة متحركة توضح طريقة 
الكتابة المثالية للنموذج الموضح على الشاشة للمستخدم» ثم يتم عرض صورة لهذا 
النموذج على الشاشة بلون شفاف. li‏ من المستخدم الكتابة على هذا النموذج 
عن طريق المرور فوقه بالقلم بنفس طريقة الكتابة المثالية السابق عرضها له؛ ويحتوي 
هذا النموذج الشفاف على عدد من BUS‏ التحكيم غير المرئية للمستخدم كا هو موضح 
بالشكل (4-7). ثم passi‏ هذه BUDE‏ لتحكيم العناصر التالية في كتابة المستخدم: 

-١‏ درجة قرب كتابة المستخدم من موضع نقاط التحكيم. 

-Y‏ ترتيب مرور كتابة المستخدم على BUS‏ التحكيم. 

-Y‏ عدد الوقفات في كتابة المستخدم. 

يتم تجميع هذه التقيبمات في تقييم Ur]‏ يستخدم لإنتاج رسائل تصحيحية مناسبة 
للأخطاء المحددة» حيث تساعد هذه الرسائل في إرشاد المستخدم لطريقة الكتابة السليمة 
وتوجيه حركة اليد في الاتجاه الصحيح والتحكم في القلم المستخدم» كما تساعده على 
الكتابة بطريقة سهلة التعلم وواضحة. 


Ab 


الشكل *-4: نموذج تعلم الكتابة الموّجّه. 
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بعد أن تاز الطالب المسترى الأول من cou jas‏ يمكن أن يقل إل المستوى 
الثاني في الكتابة الحرة» حيث يكون قد تمكن من إتقان المهارات الأساسية لكتابة 
الحروف؛ لذلك يتم تدريب الطالب - في المستوى الثاني - على الكتابة بدرجة أكبر من 
الحرية بدون توجيه لاختبار مدى استيعاب الجهاز الحركي عند الطالب لأشكال كتابة 
الحروف وتخزينها في الذاكرة الباطنية. l‏ 

وفي تدريبات هذا المستوى يتم عرض صورة متحركة توضح طريقة الكتابة المثالية 
للنموذج الموضح على الشاشة للمستخدم» ثم ČI‏ من المستخدم كتابة النموذج بنفسه 
على مساحة بيضاء. ويتم تحكيم جودة كتابة المستخدم, ثم تُعرَضُ نتيجة تقييم هذه 
الكتابة مع توضيح نوعية الخطأ وموضعه في أي حرف من حروف النموذج المستخدم. 
ولعمل هذا التحكيم يتم تنفيذ مرحلتين من المعالجة لكتابة المستخدم؛ حيث يتم في 
المرحلة الأولى تحديد المقاطع الحرفية في كتابة المستخدم وحدود بدي والنهاية لكل 
حرف في عينة الكتابة» وذلك باستخدام ناذج ماركوف المخفية التي سبق شرحها في 
تطبيق تعليم القراءة. 

Ain‏ هذه النماذج نظرًا للتطابق الكبير بين عمليتي النطق والكتابة؛ فالأولى هي 
تتابع من الأصوات المنطوقة, والثانية هي تتابع من الحروف المكتوبة» مع اختلاف بسيط 
في الثانية» إذ عادة تضاف النقط والعلامات التشكيلية بعد إتمام كتابة الكلمات. وهذا 
التحرك الخلفي في اتجاه الكتابة يسبب نوعًا من التعارض مع الفرض الأساسي ge)‏ 
ماركوف المخفية من نوع (Ergodic HMM)‏ وهو أنها تستطيع عمل نمذجة للبيانات 
المتتابعة في اتجاه أمامي فقط . 

وللتغلب على هذا التعارض» أَضِيفَت مرحلة قبل المعالجة لإعادة ترتيب تتابع 
الوحدات المكتوبة في عينة الكتابة لتكون في تسلسل أمامي» LE‏ يسهل استخدام نماذج 
ماركوف المخفية من نوع (Ergodic HMM)‏ لعمل نمذجة هذه البيانات. 

وبعد تحديد المقاطع الحرفية في كتابة المستخدم» يتم تحليل جودة كتابة كل مقطع 
وتحديد نوع الخطأ في شكل كتابة الحرف إن وجدء ويتم ذلك باستخدام عدد من 
المصنفات الثنائية» يتخصص كل مصنف منها في إعطاء قرار ثنائي عن وجود خطأ sde‏ 
في كتابة الحرف أو عدم وجوده. 
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في الشكل )٠١-7(‏ يتم عرض حلط لمراحل تحكيم الكتابة الحرة للمستخدم؛ وكا 
نرى في مراحل تحكيم كلمة «حافظ» بعد ALLN‏ المبدئية وإعادة ترتيب اتجاه الكتابة 
في الكلمة تم تحديد المقاطع الحرفية في الكلمة» وهي هنا أربعة مقاطع؛ وتم تحكيم 
جودة كتابة كل حرف والأخطاء الملحوظة فيه؛ مثل حرف الألف» وهى مكتوبة بشكل 
مقوس في هذه العينة. ۰ 






حاوظ 





الرسائل التوضيحية 


:٠١-* SÉ‏ مراحل تحكيم الكتابة الحرة. 
ولتصنيف أخطاء الكتابة هناك العديد من المصنفات الآلية التى يمكن استخدامها. 
ix,‏ الات المتجهات الدّاعمة (support vector machine)‏ من أفضل الوسائل في 
مكتوب باحتوائه على خطأ محدد أم لا. والجدول (Y- Y)‏ يوضح أمثلة لعدد من أخطاء 
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الكتابة في ode‏ من الحروف» حيث يتم بناء عدد من المصنفات الثنائية مساو لعدد 
الأخطاء التي تم حصرها لكل حرف. ويتم تدريب هذه المصنفات باستخدام عينات 
من الكتابة المثالية وعينات من الكتابة بالخطأ المحدد. ويتم استخدام جزء من عينات 
الكتابة لتوليف أفضل اختيار لبارامترات المصنف. 
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عينة خطأ نوع الخطاً 





تدويرة حرف الواو صغيرة 





أربع نبرات في حرف السين 





تدويرة حرف السين غير مكتملة 





حرف الراء شبه الدال 





لا يوجد انحناء في رسم الراء 





لا يوجد انحناء في رسم ا لحاء 





حرف الصاد بدون نبرة 
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حرف العين يشبه رقم أربعة 





ج لا يوجد عنق لحرف الفاء 
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تدويرة حرف ell‏ مفتوحة 
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الجدول ١1-7‏ : نماذج لأخطاء كتابة بعض الحروف. 
تم اختبار هذا التطبيق على DÉ‏ عدد من مدارس المرحلة الابتدائية في المرحلة 
العمرية ١١-5‏ سنة. تم تدريب ٠١ ade‏ طالب على استخدام التطبيق» ثم استخدم 
الطلاب التطبيق للتدرب على كتابة الأمثلة المتاحة. بعد عدد قليل من الحصص التعليمية 
تمكنت نسبة كبيرة من الطلاب من تحسين كتابتهم؛ وقد تمكن بعضهم من تقليد طريقة 
الكتابة المثالية للأمثلة. ul‏ تحليل نتائج التجربة إلى وجود تفاوت في قدرة التطبيق 
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على تتبع أخطاء الكتابة المختلفة CS‏ هو موضح بالشكل (ONT)‏ حيث تراوحت الدقة 
للحروف المختلفة Éb 4٠ - 7/5٠‏ لدرجة الصعوبة في شكل الحرف وتعرٌّف التطبيق 
على نوع الخطأ في كتابته. وبصورة ما d$‏ أن درجة استفادة الطلاب الأصغر سنا من 
النظام أكثر من قُرنائهم الأكبر ia‏ وهذه نتيجة متوقعة إلى حد كبير بسبب مرونة 
جهاز الكتابة عند الصغار» Ut‏ يسهل تعلم التغيير في طريقة كتابة الحروف وتعديل هذه 
الأشكال في العقل الباطن للطفل» ما يسهل عليه استخدامها بصورة آلية في المستقبل. 
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الشّكل :١١-‏ نسبة الدقة في التعرف على أخطاء كتابة الحروف المختلفة. 
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Xon مقترحات‎ - ٤ 
مشاركة الباحثين اللغويين في تطوير استخدام تقنيات معالجة اللغة العربية‎ ad 
Nei ام السو د‎ MN dc UR. 
SA alie ol S t Ses lS 
من أقدم العلوم مقارنة باللغات الأخرى» حيث تم وضع أسسه‎ 3a في اللغة العربية‎ 
ا ال ا ا ار‎ s جود‎ MR d 
مك‎ E ا‎ piis d 
تعلم النطق باستخدام الحاسب سوف يسهم في تطور هذه التقنيات والحصول على‎ 
وتستطيع الأبحاث اللغوية أيضًا توفير التحليل اللغويّ لأخطاء الكتابة وتصنيفها‎ 
وتعيين معدل تكرارها وتحديد مرجعيتها طبقا لقواعد البناء اللغويّ في اللغة العربية.‎ 
فكل هذه الخصائص تساعد على تصميم برامج تعليمية للغة العربية بصورة ميسرة‎ 
ومفيدة للدارسين حيث يتم التركيز فيها على العناصر الفعالة التي تقود المتعلم لفهم‎ 
واستيعاب قواعد اللغة من ناحية» وتوظيفها في كتابة النصوص بلغة عربية سليمة من‎ 

ناحية أخرى. 

ومن ناحية أخرىء يستطيع الباحثون D gall‏ بالخط العريّ توفير قواعد تعليمية 
لتحسين طرق الكتابة وإظهار جماليات الخط العربي. ويمكن استنتاج هذه القواعد عن 
طريق تحليل مُشكلات الكتابة في عينات من الخط تمثل ناذج الكتابة بدرجات إتقان 
متفاوتة. 
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الفصل الرّابع 
التقييم الآلي 


-١‏ تقنيات الأسئلة المقالية وأنواعها. 

UT (الموضوعات التعبيرية)‎ JU طرق تقييم‎ -Y 
تقييم الإجابات القصيرة.‎ -Y 

-٤‏ تقييم درجات الكلام. 

-o‏ أنظمة تقييم الرياضيات. 

5- أنظمة الكشف عن السرقات الأدبية. 

-V‏ أنظمة التقييم الآلي ودعم اللغة العربية. 

8- الخلاصة. 
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c التقييم‎ 
(Automatic Scoring) 

مقدمة 

تؤدى زيادة عدد الطللاب والاختبارات إلى أن تصبح عملية تصحيح إجابات 
الاختبارات بأنواعها وتقييم الطلاب أمرًا مزعجاء ويؤدي التقييم Automatic) (JI‏ 
(Scoring -AS‏ إلى اختصار الوقت (gl ls‏ وتوفير تناسق ومتانة التقييم» وتوحيد 
المقاييس المعيارية لتقييم الطلاب ورصد الدرجات؛ ك| أن هذه النظم واسعة المجال le‏ 
يكفي لتغطية جميع أنواع إجابات الطالب المكتوبة والمنطوقة. 

وتوفر أنظمة التقييم والتصحيح JYI‏ العديد من المزاياء مثل اتساق وعدالة التقييم» 
وتقديم coles‏ للامتحانات عالية المخاطر (high-stakes assessments)‏ والتي 
تتمثل في الح بين القبول والرّفض «ناجح أو غير ناجح»» «يقبل أو لا يقبل»» goa‏ 
أو لا يصلح» وهكذا. وتعزز هذه النظم معنى «التوحيد القياسي» عن طريق تطبيق 
نفس المعايير على جميع الإجابات. بعبارة أخرى فإن التقييم AES SI‏ يوفر الفوائد 
لكافة مهام التقييم با فيها من مكوناتها الأساسية» (Xx y‏ الطلاب والقائمين 
بالتقييم وعملية الاختبار نفسها. وني الوقت الحالي يتم استخدام نظم التقييم الآلي في 
تصحيح كثير من اختبارات القبول للجامعات المشهورة مثل اختبارات: 

The Test of English as a Foreign Language (TOEFL) the Graduate 
.JRecord Examinations (GRE) and the Scholastic Assessment Test (SAT 

تتعامل أنظمة التقييم الآلي AS‏ الحالية مع الطلاب من خلال ثلاث طرق: 

الطريقة الأولى هي تقييم إجابات الطلاب المكتوبة» وتشمل تقييم وتصحيح 
المقاللات النصية (ومنها موضوعات التعبير واللانشاء)» (uM‏ الإجابات القصيرة. 

xy‏ تصحيح المقالات النصية GAE‏ أكبر من تصحيح الإجابات القصيرة» حيث 
يتطلب تقييم أسلوب الطالب في الكتابة style‏ ويحتاج معالجة لغوية عميقة. 


الطريقة الثانية هي تقييم إجابات الطلاب المنطوقة» وتنقسم إلى نوعين: 
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النوع الأول: وفيه يُطلب من الطالب نطق جملة مكتوبة» ويتم تقييم طريقة ودقة 
النطق. والنوع ESI‏ وفيه يطّلع الطالب على نص مكتوب» ويطلب منه التعبير بصورة 
منطوقة عن مفهوم النص مستخدما قواعد النطق والقواعد النحوية الصحيحة لتكوين 
الجمل الصحيحة. 

يطلق على النوع الأول مصطلح «الإجابات المنطوقة بفوضى منخفضة» low)‏ 
(entropy spoken responses‏ ويطلق على النوع FS‏ مصطلح «الإجابات المنطوقة 
بفوضى مرتفعة) .(high entropy spoken responses)‏ 

أما الطريقة الثالثة للتعامل مع الطلاب فهي تصحيح المسائل الرياضية» والتي 
تتطلب من الطالب الإجابة بمعادلات ونصوص وأرقام ورسومات بيانية. 

ومع أن هدف أنظمة التقييم AS JYI‏ هو تحقيق علاقة توافق عالية بين الدرجات 
التي يمنحها الإنسان والدرجات التي تمنحها الآلة» فإنه من المهم أن نعرف أن تقييم 
درجات إجابات الطلاب تختلف في أسلوبها عند تقييمها بواسطة الآلة عنها عند تقييمها 
بواسطة الإنسان. فبصفة عامة يوجد أسلوبين لتقييم درجات إجابات الطلاب بطريقة 
آلية. يعتمد الأسلوب الأول على تحديد درجة التطابق التام بين إجابة الطلاب والإجابة 
الصحيحة النموذجية المحفوظة في النظام. الأسلوب الآخَر لا يفترض وجود إجابات 
نموذجية للمقارنة اء ولكنه يعتمد على تحليل واستخراج سات مختلفة من إجابات 
الطلاب لتحديد نتيجة درجات التقييم الآلي بناءَ على التعلم من نتائج التقييم اليدوي 
التي تمت سابقا على عينة من المقالات. 

نبتم في هذا الفصل بنظم التقييم الآلي للأسئلة المقالية والأسئلة التي تتطلب إجابات 
قصيرة. أما بالنسبة لأنظمة تقويم الأسئلة من نوعية تعدد الخياراتء أو اختيار الإجابة 
من بين اختيارات الخطأ والصوابء أو التطابق» أو ملء الفراغ؛ فهي سهلة التنفيذ 
والتطبيق ولن نتعرض ها. 

Sal‏ الإفادة من تقنيات التقييم الآلي للأسئلة المقالية في بناء أنظمة للكشف عن 
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السرقات الأدبية (Plagiarism detection)‏ حيث تنتشر هذه الظاهرة -للأسف - 
في الأوساط الأكاديمية» إذ عادة ما تكون في وثائق المقالات أو التقارير. ومع ذلك 
يمكن وجود ظاهرة السرقات الأدبية في أي مجال تقريباء o‏ في ذلك الأوراق العلمية» 
والتصميمات الفنية» وحتى في برامج الحاسب. 

يركز هذا الفصل على المنهجيات ونتائج التطبيقات بواسطة كبريات شركات 
التطوير في جال التقييم AS JYI‏ مثل: شركة خدمة الاختبارات التربوية ETS‏ وشركة 
معارف تكنولوجيا بيرسون PKT‏ وشركة فانتيج ليرنينج. 
Educational testing Service (ETS), Pearson Knowledge technologies‏ 


(PKT) and Vantage Learning. 


ويشتمل الفصل على عدّة محاور رئيسية: أنواع الأسئلة المقالية ونظم تقييمها الآلية 
(AES)‏ نظم تقييم الإجابة القصيرة» نظم تقييم الكلام (الإجابات المنطوقة)» نظم 
تقييم أسئلة الرياضيات» أنظمة الكشف عن السرقات الأدبية» وأخيرا.. موقف اللغة 
العربية من هذا المجال المهمٌ. 


Y‏ الأسئلة المقالية وأنواعها 
تنقسم الأسئلة المقالية إلى أربعة أنواع رئيسية» يعكس كل منها هدفا تعليميًا مختلمًا: 
١‏ - أسئلة وصفية :(Description)‏ 
وتتطلب سرد النقاط الرئيسية في الموضوع؛ وغالبا ما تبداً بالأفعال التالية: 
حدّد. صِفء خطّط» اشرح. عَدَّد اذكر» لخصء قدَّم 


Define, describe, outline, explain, list, delineate, trace, state, 
summarize, present 


:(Discussion) أسئلة مناقشة‎ -Y 
وتتطلب مناقشة النقاط الرئيسية في الموضوع؛ وغالبا ما تبداً بالأفعال التالية:‎ 
حلل» استکشف» ناقش» علق» وضح» فسر» استعرض‎ 


Analyse, explore, discuss, comment, illustrate, account for, interpret, 
review, explain, consider, debate, show how and examine 
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:(Evaluation) أسئلة تقييم‎ -Y 

وتتطلب إيضاح الخط الفكري أو الحجة خلف الموضوع؛ وغالبا ما lacs‏ بالأفعال 
التالية: 

انقد» 3 ale O3‏ على 

Criticize, evaluate, critically evaluate, justify, comment on, and interpret 

(Comparison) أسئلة مقارنة‎ - ٤ 

وتتطلب مناقشة نقاط التوافق والاختلاف أو نقاط القوة والضعف؛ وغالبا ما تبدأ 
بالأفعال التالية: 

قارن» cr‏ أوجه X "EC «ol‏ ناقش 
Compare, contrast, differentiate, distinguish, debate‏ 


Z 
3 


(AES) GI (الموضوعات التعبيرية)‎ JUL طرق تقييم‎ -Y 
بأنه التقنية الحاسوبيّة التي تقوم بتقييم ووضع درجات‎ Uf يعرف تقييم المقال‎ 
تقدير وتقييم المقالات آلياء ووضع‎ ub للأعمال المكتوبة؛ ويعرف تقييم المقال أيضا‎ 

درجات المقالات المكتوبة آليا. 

معظم أعمال تقييم المقال UT‏ تتعامل مع اللغة الإنجليزية» مع قليل من النظم التي 
صممت لدعم لغات آخرى» مثل: العبرية واليابانية ولغة الملايو «البهاسا». 

تقييم المقال (الموضوعات التعبيرية) UE‏ لا يفترض وجود إجابات نموذجية 
للمقارنة بهاء ولكنها تعتمد على تحليل واستخراج سمات مختلفة من إجابات الطلاب 
لتحديد نتيجة درجات التقييم الآلي بناءً على التعلم من نتائج التقييم اليدوي التي تمت 
سابقا على عينة من المقالات. 

يمر بناء معظم أنظمة التقييم الآلي للموضوعات التعبيرية عبر نفس خطوات 
بناء الخوارزمات الإشرافية (supervised algorithms)‏ التى تتطلب مرحلة التعلم. 
فمراحل بناء نموذج التقييم p iis AES JYI‏ وهي كالتالي: 
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مرحلة الإعداد» وتشمل تجهيز عينة من المقالات التعبيرية التي تم تصحيحها 
وتقييمها سابقا بطريقة يدوية مع تحديد واستخراج السمات التي سيتم تدريب النظام 
عليها من المقال. وتسمى هذه المجموعة: عينة أو فئة التدريب. يتم فحص عينة 
التدريب هذه من قبل خبراء الحاسب (ويفضل التعاون مع الخبراء في المجال) لتحديد 
واستخراج مجموعة من خصائص وسات وأوزان تصف النص المقالي. ففي مرحلة 
استخراج السمات والتدريب يتم تصحيح وتقييم مجموعة من مئات المقالات التعبيرية 
بواسطة الخبراء (القائمين بالتقييم) وإعطاء كل مقالة درجة من ٠١‏ مثلاء وتستخدم 
هذه السمات والأوزان لإنتاج نموذج رقمي للنص يمكن استخدامه للتنبؤ بدرجة 
التقييم التي يحصل عليها المقال بواسطة الخبير الإنسان. 

مرحلة بناء نموذج برنامج التصحيح والتدريب» حيث يتم استخدام إحدى 
خوارزمات تعلم ANI‏ مثل خوارزم آلة الدعم (Support Vector Machine) ig% ¿l‏ 
أو الخوارزمات الإحصائية مثل خوارزم بايز (Bayes Algorithm)‏ بغرض تعلم 
العلاقة الكامنة بين السات المستخرجة من الموضوع التعبيري وبين درجة التقييم التي 
تمت يدويا بواسطة الخبير القَيّم للمقال. ويتم التحقق من صحة هذا النموذج الرقمي 
من خلال مقارنة النتائج التي يتم الحصول عليها يدويا من قبل المَيّمين الخبراء ودرجة 
التقييم المستنتجة من هذا النموذج» ويتم تكرار هذه العملية حتى نتأكد من تطابق تقييم 
الحاسب للمقال مع التقييم اليدوي بصورة مُرضية. 

وأخيرا مرحلة الاستخدام الفعلي للبرنامج في تصحيح مقالات الطلاب التعبيرية 
الجديدة آليا. حيث يتم تغذية البرنامج بالسمات المستخلصة من QUII‏ الموضوعي المراد 
تقييمه آليا. 

والآن» كيف يتم تحديد واختيار الخصائص والسمات المعبرة عن نمذجة المقال التعبيري؟ 
هناك طريقتان أو منهجيتان رئيستان لإنتاج ناذج التقييم الآلي AES‏ إما باستخدام أساليب 
«القوة الحاسوبية المحضة» (brute force)‏ أو باستخدام الوسائل المختلطة (الهجين). 

تستخدم المنهجيّة الأولى تشكيلة واسعة متنوعة من السمات والخصائص اللغوية 
للنصء والتي ليس لا علاقة مباشرة بكيفية الكتابة الجيدة لقال مثل وجود أخطاء من 
النحو الإملائي» ووجود أخطاء التنقيط» وهكذا. 
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بين تكون الناذج القائمة على الأساليب المهجنة ذات علاقة مباشرة مشتقة من 
الناحية النظرية لمفهوم خصائص الكتابة الجيدة للمقال مثل مدى ارتباط تسلسل 
الفقرات في النص - وهو ما يطلق عليه مصطلح (Lexical Chaining)‏ - وأن الکلات 
المستخدمة هي المناسبة» ومدى استخدام الجمل الموجزة» ومدى استخدام صيغ نائب 
الفاعل في المقال» واستخدام صيغ الماضي» وهكذا. 


وجدير بالذكر أن تحديد واستخراج سمات المقال الموضوعي الملائمة للتقييم هو 
التحدي الحقيقي لنظم تقييم JUM‏ 


AES ناذج من أنظمة التقييم الآلي‎ - Y, Y 

(Project Essay Grade - PEG) نظام «مشروع تصحيح المقال»)‎ 2 

وقد تم تطويره بجامعة «كونيتيكت» الأمريكية منذ منتصف الستيئيّات. هو نظام 
رائد في تقييم المقال AES Uf‏ عبر تاريخ التقييم الآلي. يعتمد هذا النظام على سات 
وقياسات تمثل جودة المقالات. هذه القياسات تأخذ في الاعتبار بنية الكتابة مثل 
متوسط طول الكلمةء ومتوسط طول الحملة بالمقال» إضافة إلى عدد من الوحدات 
النصية الأخرى. 
l‏ يستخدم النظام إجراءً إحصائيًا لإنتاج أوزان ترجيحية هذه القياسات (باستخدام 
أسلوب تحليل الانحدار .((Regression Analysis)‏ 

لقد تت إعادة تطوير وتحسين نظام PEG‏ أواخر التسعيئيّات بإدراج أدوات 
معالجة اللغات الطبيعية (NLP)‏ مع الأخذ في الاعتبار التحليل النحوي وعلامات 
أجزاء الكلام (Parts of Speech tags)‏ للمقال ومدى التزام النص بقواعد النحو. 

ويستخدم نظام PEG‏ في تصحيح برامج الاختبارات تعليمية» مثل امتحان 
(Scholastic Assessment Test- SAT)‏ الذي يستخدم كاختبار للقبول في الكليات 
الأمريكية منذ عام 27٠0١5‏ وهو يقيس معلومات وقدرات الطالب في الرياضيات 
والقراءة النقدية والكتابة. 
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(Intelligent Essay Assessor — IEA) « نظام ١مقيم المقالة ال کي‎ " 

لقد تم تطوير ALI‏ الذَِّيّ IEA‏ أصلا في جامعة كولورادو الأمريكية في عام 
E CARY‏ حاليا عن طريق شركة (برسون نولدج تكنولوجي PKT‏ هذا النظام 
قادر على تقييم المقالات بدرجة ثقة تماثل الخبرة البشرية الماهرة . 

يمتلك المقيم الذكيّ TEA‏ العديد من المزايا التي تميزه عن غيره من أنظمة تقييم 
درجات المقالات» حيث يوفر تقديرا كليا وتغذية عكسية عن الأخطاء الإملائية 
والنحوية. کا أنه يحتوي في بنيته على كاشفات للمقالات غير العادية» مثل مهارات 
القيادة العسكرية. وقد جرى استخدامه لرصد الدرجات والتقييم على مدى أكثر من 
مليون مقالة» تتراوح بين مقالات المدارس المتوسطة ومقالات ib‏ كليات الطب» 
وفي coUe‏ متنوعة المحتوى. 

ميزة هذا النظام أنه يركز على تقييم محتوى المقالة في المقام الأول» لا على التركيب 
البنائي ها فقط (CS‏ هو الحال في النظام السابق. ويقوم مقيم المقالة الذكيّ TEA‏ بتقييم 
ووضع الدرجات باستخدام أسلوب تحليل الدلالات الكامنة Latent Semantic)‏ 
«(Analysis- LSA‏ والذي JE?‏ طريقة تحليل دلالة النص التي يمكن تعريفها بأنها 
«نموذج إحصائيٌ من استخدام الكلمة Ji‏ تسمح بمقارنات JYI NEC‏ بين قطع 
من المعلومات النصية» حيث تنتج مجموعة من المفاهيم المرتبطة بمحتوى النص». 

ويفترض أسلوب 184 أن الكلمات القريبة في ا معنى غالبا ما تكون قريبة من بعضها 
البعض في داخل النص. ويدمج نظام التقييم الذكيّ TEA‏ طريقة التحليل JYI‏ 
LSA‏ جنبا إلى جنب مع قاعدة بيانات معلوماتية تحتوى على مادة الكتب 
المدرسية وعينة مقالات أو مصادر أخرى غنية في الدلالة لتدريب أجهزة الحاسب. 

يؤدي هذا الدمج بين التحليل الدلالي وقاعدة البيانات المعلوماتية إلى تقليل عدد 
المقالات التي تستخدم في تدريب النظام» والتي يتم تصحيحها وتقويمها يدويا نظرا 


OY‏ رصد الدرجات يتم إنجازه اعتمادا على التحليل GYI‏ بدلا من بناء النماذج 
الإحصائية التقليدية للمقال. 
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" نظام إنتليمتريك (Intellimetric)‏ 

وهو نظام تم تطويره اعتبارا من ۱۹۹۷ بواسطة شركة تكنولوجيا التعلم Vantage)‏ 
(Learning Technology‏ ويعتبر أول نظام لتقييم المقال آليا AES‏ یستند على علوم 
الذكاء الاصطناعيّ واللغويات الحاسوبية؛ فهو يجمع بين أدوات معالجة اللغات 
الطبيعية (NLP)‏ والتقنيات الإحصائية في رصد درجات المقال» ويمكن الإشارة إليه 
كمحرك تعلم استوعب «الحكمة الحمعية) (Pooled Wisdom)‏ أو «يستند على العقل» 
لخبراء التقييم. يستخدم إنتليميترك CIntellimetric)‏ النموذج الذي يحتوى على أمثلة 
مجموعة من معاملات التنبق والأوزان التي تم تعريفها عن طريق استخراج أكثر من 
٠‏ سمة من أجوبة الطالب» بالإضافة إلى مجموعة سمات تدريبية تتكون من السمات 
ذات الطبيعة الدلالية والنحوية والخطابية. 

يأخذ نظام CIntelliMetric)‏ في الاعتبار خمسة أبعاد أساسية كامنة» وذلك عند 
تصحيح المقال ورصد الدرجات» وهى: المحتوى» والإبداع» والأسلوب. والميكانيكية» 
والتنظيم. يستخدم CIntellimetric)‏ شبكات كلات معجمية مبنية على الإحصاء 
الدلالي للمقالة. هذا الإحصاء الدلالي يماثل أسلوب التحليل IYI‏ الكامن Latent)‏ 
(Semantic Analysis-LSA‏ هذا التحليل GYI‏ الكامن يمثل حمس فئات idle‏ 
من eel‏ 

الفئة الأولى تتم بالتركيز على الوحدة والتهاسك والتناسق في الغرض والأفكار 
الرئيسية في المقالة. 

الفئة الثانية تختص بمدى اتساع نطاق المحتوى ودعم الأفكار» وتُعنى بمدى 
الاختيار السليم للمفردات والمفاهيم. 

الفئة الثالثة #بتم بمدى تنظيم وهيكلة المقالة من حيث منطق الخطابء بها في ذلك 
سيولة الانتقالية والعلاقات بين أجزاء الاستجابة. 


الفئة الرابعة وتختص ببنية الجملة والتركيز على تعقيد الجملة والتنوع» مثل: التنوع 
النحوي في الاستخدام» ومدى التعقيد في الجمل المستخدمة. وأخيرا.. 
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الفئة الخامسة تعكس آليات التحقق من التزام QUII‏ بقواعد اللغة الإنجليزية» مثل: 
قواعد النحو والإملاء» والحروف الكبيرة» واكتمال الجملة» وعلامات الترقيم» وغيرها. 
حاليا يستخدم نظام CIntellimetric)‏ في كثير من المدارس الأمريكية والإنجليزية 

الانترنة: 
http: / /www.vantagelearning.com /products /intellimetric /‏ 
demonstration /demonstration-american-english /‏ 

2 نظام التصنيف (E-rater)‏ 

هو نظام تم تطويره بواسطة شركة خدمة الاختبارات التربوية Educational)‏ 

(Testing Service -ETS‏ وهو معروف جيدا في تنبؤ درجات تقييم المقال ويتفق 
مع درجات التقييم اليدوية» بالإضافة إلى قدرة النظام على اكتشاف إجابات الطللاب 
الخارجة عن الموضوع. ويستخدم نظام المصنف E-rater‏ حاليا من أجل : 

.ETS تقييم درجات المقالات المرسلة» وتطبيق تعلييات كتابة المقاللات في نظام‎ ٠ 

* تقييم اختبارات القبول لبرامج الدراسات العليا في الإدارة Graduate)‏ 
(Management Admission Test- AWA GMAT‏ ويقيس هذا الامتحان 
مهارات الكتابة اللفظية والرياضية» ومهارات الكتابة التحليلية. 

* تقديم خدمة تقييم المقال من خلال شبكة الإنترنت. في هذا التطبيق يقوم 
المحرك برصد درجات المقال ببساطة عن طريق استخراج سات مستندة على 
أساس (eJ‏ من المقال ويستخدم النماذج الإحصائية لربط هذه السات مع 
Le y‏ جودة الكتابة عموما. يتم تقييم نتيجة JU‏ بدرجة من ١‏ إلى ٦‏ حيث ١‏ 
هی أدنى درجة و T‏ هى del‏ الدرجات. 

يطبق نظام CE-rater)‏ أسلوب الانحدار الخطي المتدرج على عينة من المقالات 

التدريبية المكتوبة حول نفس الموضوع الذي تم تقييمه بواسطة مجموعة من المتخصصين 
من أجل استخراج أكثر من ٠١‏ سمة لغوية للمقال» والتي يمكن أن تكون عونا كبيرا 
في التنبؤ cocus‏ المقالات الماثلة في نفس الملوضوع. 
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يطبق نظام (E-rater)‏ المحدّث مجموعة من السمات التي يستخلصها من المقال موزعة 
إلى خمسة مجالات من التحليل؛ الأول سمات خاصة بالأخطاء النحوية وأخطاء الاستخدام» 
والأسلوب Style‏ الثاني هو تنظيم المقال. الثالث هو تعقيد المعجم. الرابع هو مدى 
الاستخدام الصحيح للمفردات» وأخيرا طول المقال. يتضمن نظام التصنيف (E-rater)‏ 
cola‏ تصنيف أخرى تتعلق بالمفردات ومدى ملائمة المحتوى» والتنظيم» والتطوير. 

2 نظام التصنيف (C-raterTM)‏ 

تم تطوير هذا النظام من قبل شركة خدمة الاختبارات التربوية Educational)‏ 
(Testing Service -ETS‏ أيضاء وهو معروف جيدا بالتقييم ذي الدقة العالية 
للمقالات المكتوبة» وتم التحقق منه على مقالاات متعددة من برامج الاختبار في العديد 
من مجالات المحتوى المختلفة» o‏ في ذلك العلوم» والقراءة والفهم والتاريخ. 

تستخدم تكنولوجيا نظام التصنيف (C-rater)‏ «منهجية حقيبة الكليات» 
(Bag of words approach)‏ والتى تستخدم فيها المعالحة الطبيعية العميقة للغة لتقييم 
ما إذا كانت إجابة الطالب تحتوى على النص الذي يمكن اعتباره صياغة أخرى مماثلة 
للمفاهيم الواردة في شرح الموضوع (item rubric)‏ يختلف هذا المنهج عن الأساليب 
الأخرى لتحليل إجابات الطلاب (مثل تحليل الدلالة الكامنة (LSA‏ 

لإجراء عملية التقويم يقوم نظام (C-rater)‏ بإجراء سلسلة من خطوات äl les‏ 
اللخات الطبيعية NLP‏ ومنها : 

؟ تصحيح الأخطاء الإملائية الطلاب. 

o‏ تحديد بنية كل ila‏ نحوية. 

* حل مرجع الضمير. 

٠‏ تحليل صياغة إجابات الطلاب. 

الميزة الرئيسية لمحركات (C-rater)‏ عن باقى عر کات AES‏ الأخرى هى التحليل 
اللغوي العميق لإجابات الطلاب» وهو ما يضمن أن عملية التقييم لن تنخدع 
بالإجابات التي تستخدم الكلمات الصحيحة في سياق خاطئ. 
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AES نتائج تطبيقات أنظمة التقييم الآلي‎ -Y , Y 
تقاس نتائج التقييم الآلي بمدى تطابقها مع التقييم اليدوي» مع الأخذ في الاعتبار‎ 
أنه نادرا يندر تطابق نتائج التقييم لشخصين مختلفين.‎ 


مقالة التقييم» وارتباط الإنسان بالإنسان وارتباط الإنسان والحاسب. 
































" ارتباط الإنسان | ارتباط الإنسان‎ 
العينة الاختا النظا‎ av 1 1 
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الجدول £ Y‏ نتائج تطبيقات أنظمة التقييم الآلي AES‏ 
يتضح من الجدول السابق أن أنظمة التقييم الآلي للمقالات التعبيرية المكتوبة باللغة 
بنفس القدر (تقريبا) الذي تختلف فيه نتائج التقييم من شخص إلى شخص آخر. 
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-Y‏ تقييم الإجابات القصيرة. 

o]‏ نظم تصنيف درجات الإجابة القصيرة سهلة التنفيذ حيث dae lel‏ إلى تقييم 
محتوى المعارف والمهارات الطالب. في مقابل نظام درجات المقال التي تقوم بتقييم 
قدرة الطالب على الكتابة وتتطلب إمكانيات متطورة لتحليل النص وفهمه. نظم تقييم 
الإجابات القصيرة تتطلب أن تكون إجابة الطالب قصيرة على أن تبين مدى استيعابه 
للمفاهيم الرئيسية في مجال معين. ويقوم نظام التقييم الآلي بمقارنة إجابة الطالب مع 
واحد أو أكثر من الأجوبة الصحيحة المخزنة لديه. في الماضي القريب كانت معظم 
أنظمة التقويم تتطلب مجهودًا إضافيًا من المعلم حيث كان يتطلب منه إعداد أدلة 
الإجابات النموذجية بطريقة يدوية أو أن يوفر مُدَوّنة KAj‏ مُعنونة Annotated)‏ 
(Corpus‏ لتحديد أناط الإجابة بطريقة نصف آلية. 


تعتبر منهجية قياس تشابه النص (Text similarity approach)‏ ھی gpl‏ عمل 
نظم تقييم الإجابات القصيرة. ويوجد عدد كبير من خوارزمات التشابه بعضها del‏ 
في الاعتبار التحليل اللغوي العميق لكل من إجابة الطالب وإجابة المدرس والبعض 
الأخر يأخذ في الاعتبار العبارات القصيرة المشركة بين الإجابتين. 


يلعب التشابه الدلالي بين كلمتين دورا كبيرا في الوصول إلى التشابه الدلالي بين 
جملتين UU)‏ ما يتم ذلك باستخدام تقنية المعلومات المتبادلة بين كلمات الجملتين 
.(pointwise mutual information‏ ولكن كيف يمكن حساب التشابه الدلالي بين 
كلمتين (مثل الكلمتين شجرة» نخلة أو كتاب وكراسة)؟ 
توجد طرق كثيرة لذلك نذكر منها الطرق التالية: 
٠ Leacok & hodorow.‏ 
Lesk.‏ * 
Wu& Palmer.‏ * 
Resnik.‏ * 
Lin.‏ ° 
Jiang & Conrath.‏ ° 
Hirst & St-Onge.‏ * 
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* Corpus based Similarity combined with Explicit Semantic 
Analysis (ESA). 
* Corpus based Similarity combined with Latent Semantic 
Analysis (LSA). 
التشابه بين كلمتين عن طريق حساب نسبة التداخل‎ Lesk يقيس‎ JUI فعلى سبيل‎ 
بين التعريف المناظر لكل كلمة على النحو المنصوص عليه من قبل القواميس الشهيرة.‎ 
التشابه بين كلمتين عن طريق قياس مدى التباعد بين‎ (Wu& Palmer) وأيضا يحدد‎ 
(WordNet) موقع الكلمتين في شبكة الكلات المعجمية للغة الإنجليزية‎ 
وفيا يلي ناذج من أنظمة درجات الإجابات القصيرة‎ 


۳ - نظام أكسفورد (UCLES)‏ 
أنماط الإجابة النموذجية» ويتم تعلم النظام باستخدام عدة أساليب لتعلم الآلة مثل 
أسلوب شجرات القرار «(Decision trees)‏ وتقنيات «(Bayesian Learning) pL‏ 
وأساليب ie JI‏ المنطقية الاستقرائية .(Inductive Logic Programming)‏ 

لتقييم مدى جودة نظام أكسفورد فقد تم تجربته على تقييم إجابات تسع أسئلة 
من مقرر الأحياء à‏ شهادة الثانوية العامة الأمريكية General Certificate of)‏ 
(Secondary Education -GCSE‏ تم تجميع 51١‏ إجابة تجريبية لكل سؤال من 
الأسئلة التسعة. وتراوحت علامات الدرجات لهذه الأسئلة من ١‏ إلى .٤‏ 

ومن بين ۲٠١‏ إجابة لكل سؤال تمّ اختيار Y‏ إجابة والدرجة المصححة لكل 
منها وذلك لتدريب نظام أكسفورد على كيفية الإجابة (من خلال بناء نموذج لتعلم 
الآلة) واستخدمت ٠١‏ إجابة متبقية في اختبار النظام. أوضحت النتائج تطابق نتيجة 
ALIAE‏ 
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(C-rater) نظام التقييم‎ -Y,Y 
يستخدم في تقييم الأسئلة المقالية» إلا أنه يستخدم‎ (Crater) بالإضافة إلى كون‎ 
يستخدم التحليل‎ «di أيضا في تصحيح الأجوبة القصيرة. وهو نظام وضع درجات‎ 
الصرفي والمترادفات» وهيكل الإسناد والوسيط ومرجع الضمير لتقييم الإجابات‎ 

القصيرة المعتمدة على المحتوى. 

تم تقييم كفاءة نظام التصنيف (C-rater)‏ من خلال Og»‏ للتقييم واسعة النطاق. 
كان البرنامج الأول هو مشروع التقييم الوطني للتقدم التعليمي بالولايات المتحدة في 
الرياضيات  .(National Assessment of Educational Progress- NAEP)‏ وقد 
استخدم نظام التصنيف (C-rater)‏ لتقييم إجابات الطلاب الخاصة بتفسير الحلول 
Y, Y‏ حملة أو ٠١ sae‏ كلمة. 

البرنامج الآخَر هو برنامج إدارة وتصحيح مقرر الإنجليزية في جامعة إنديانا 
الأمريكية من خلال شبكة الإنترنت. في هذه ا حالة» كان مطلوبا من برنامج (C-rater)‏ 
تقييم سبعة أسئلة لفهم المقروءات» حيث الإجابات على هذه الأسئلة أكثر انفتاحا من 
إجابات الأسئلة المتعلقة بفهم الحلول الرياضية NAEP‏ 

تم اختيار وتقييم استجابات الطلاب بين YEO‏ و Ul ee Yo:‏ من قبل اثنين من 
المصححين البشر وبواسطة نظام التصنيف C‏ وكان معدل اتفاق النظام مع المصحح 
البشري الأول :65 بينا كان معدل الاتفاق بين النظام والمصحح البشري الثاني 
AY , ٦‏ وكان معدل الاتفاق المتوسط بين الاثنين من المصححين البشر 8 , AS‏ 

وهذا يعني أن أداء نظام التصنيف C‏ كان مشجعا في حالة تقييم الأسئلة الملوضوعة 
من قبل منظومة التقييم الوطني للتقدم التعليمي بالولايات المتحدة NAEP‏ 

(Automark) نظام تسجيل الدرجات آليا‎ -Y,Y 


الدرجات المحَوسّبة على إجابة نص حر على أسئلة مفتوحة» ويستخدم تقنيات استخراج 
المعلومات (Information Extraction)‏ لاستخلااص e eal‏ الكامن أو المعنى وراء 
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النص ال حر. يستند وضع الدرجات فيه أساسا إلى تحليل المحتوى مع الوضع في الاعتبار 
بعض سات الأسلوب التي ينبغي النظر فيها. تمر عملية وضع الدرجات من خلال 
أربع مراحل. 
أولا: تتم المعالجة المسبقة لإجابة الطالب حتى تكون موحدة من حيث الإملاء 
وعلامات الترقيم» والتأكد من أن النظام يتسامح مع أخطاء الإملاء والكتابة 


EMEN 
ثانيا: يقوم محلل الجملة بالتعرف على المكونات النحوية الرئيسية للنص وكيفية‎ 
ارتباطها.‎ 


ثالثا: ويقوم جزء برمجية تطابق الأنماط بالبحث عن التطابقات بين قوالب نظام 
وضع الدرجات والمكونات النحوية المكونة لنص الطالب. 
رابعا: وني نهاية المطاف تقوم وحدة «التعليق على إجابة الطالب» بمعالجحة نتيجة 
تطابق الإجابة مع النمط cO ell‏ ويكون التعليق على إجابة الطالب في صورة 
الدرجة التي يحصل عليهاء ومن الممكن أن تكون أكثر تحديدا. 
تم اختبار التقييم CAutomark) JY‏ لتقييم المناهج الوطنية الأمريكية للعلوم 
لتلامذة 3( عمر الإحدى عشرة سنة National Curriculum Assessment of)‏ 
.(Science for eleven years old pupils‏ وكان شكل إجابات الطلاب : كلمة 
واحدة» قيمة واحدة» وصف الحملة التفسيرية القصيرة» أو وصف النمط الموجود 
في مجموعة من البيانات. وتراوحت علاقة الارتباط المتحققة بين ZAY‏ و AT‏ مقارنة 


٤‏ - تقييم درجات الكلام 

تقييم درجات الكلام آليا يشبه إلى حد كبير تقييم المقال المكتوب آليا. 

أولاء يتم استخراج سمات اللغة ذات الصلة» ومن ثم يتم استخدام نموذج لحساب 
الدرجات على أساس مزيج من هذه السمات. يختلف التقييم الآلي للمقال المكتوب 
عن تقييم الكلام المنطوق في نقطتين رئيسيتين النقطة الأولى: أن تقييم الكلام المنطوق 
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يتطلب ie y‏ إضافية لتحويل الكلام إلى كتابة. النقطة الثانية: عادة ما يكون اختبارات 
الكلام لغير ناطقى اللغة الأصلية .(Non native speakers)‏ 

تصنف مهام رصد درجات الكلام في فئتين أساسيتين : مهام فوضى منخفضة ومهام 
فوضى قصوى. 

تقوم مهام الفوضى المنخفضة برصد درجات الاستجابات التي يمكن التنبؤ بها إلى 

* القراءة الشفوية من فقرات مكتوبة. 


طلب إجابة منطوقة لأسئلة محددة الإجابة .(Factual Questions)‏ 

* طلب وصف صورة بسيطة. 

في المقابل فإن مهام الفوضى القصوى تقوم بالتعامل مع الكلام المتجدد - مقصودًا 
ots‏ أم عفويًا. 

وفبما يلي نماذج من أنظمة تقييم الكلام: 

5 حر ك أو آلة مصنف الكلام (SpeechRater ETS Engine)‏ 

يعتبر (SpeechRater) Bye‏ أحد تطبيقات رصد درجات الاستجابة؛ حيث 
يستخدم لتقدير درجات الاستجابات العفوية» o‏ في ذلك مجال الاستجابات الممكنة 
مفتوحة النهاية على النقيض من الإجابات المقيدة. 
طريق تقدير الدرجات باستخدام آلة مصنف الكلام كجزء من اختبار ممارسة تويفل 
TOEFL‏ من خلال الإنترنت منذ عام .70١5‏ تركز مسابقات تقييم أنظمة التعرف 
على الكلام وتقييمه على الجوانب ذات المستوى المنخفض من إنتاج الكلام مثل النطق 
(pronunciation)‏ باستخدام مهام مقيدة من أجل زيادة الموثوقية في النظام. على 
النقيض من ذلك op‏ محرك مصنف الكلام (The SpeechRater)‏ يعتمد على مفهوم 
واسع لبناء إجادة الحديث بالإنجليزية» ويشمل جوانب التوصيل AL‏ للكلام (مثل 


ep ie 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


الطلاقة في الحديث ودقة النطق)» وتسهيلات قواعد اللغة والقدرات رفيعة المستوى 
التي تتعلق بالتماسك الموضعيٌّ وتطور الأفكار. 

يعالج i),‏ مصنف الكلام (SpeechRater engine)‏ كل استجابة مع نظام التعرف 
JII‏ على الكلام ا مكيف خصوصا للاستخدام مع الإنجليزية العامية. واستنادا إلى مرج 
هذا النظام» يتم استخدام معالحة اللغات الطبيعية لحساب مجموعة من السمات التي تيز 
«صورة) من الكلام بناء على عدد من الأبعاد اللغوية» بها في ذلك الطلاقة» واستخدام 
المغردات» والنطق واللحن في الكلام. تستخدم هذه من أجل تعيين درجة تقييم Gee‏ 
لإجابة الطالب. بين| يتم تشييد بنية هذا النموذج من التقييم من قبل خبراء المحتوى» 
فإنه أيضا يتم التدريب على قاعدة بيانات من نتائج تقييم إجابات سابقة بواسطة خبراء 
في المجال وذلك من أجل ضان أن يحقق محرك مصنف الكلام محاكاة عالية لتقييم 
الإنسان بقدر الإمكان. علاوة على ذلك إذا اكتشف النظام عدم قدرته علي تقييم إجابة 
الطلاب المنطوقة نتيجة مُشكلات جودة الصوت أو أيّة مُشكلات أخرى» OB‏ محرك 
تصنيف الكلام يمكنه وضعها جانبا للمعالجة الخاصة. 

وتسعى شركة (Educational Testing Service -ETS)‏ صاحبة نظام 
1 إلى تطوير العديد من خصائص المعالجة الطبيعية للغة (NLP)‏ لتمثيل 
التعبيرات النحوية واكتشاف ملامح هيكل استجابة الردود المنطوقة. كا تسعى إلى 
زيادة قدرة النظام للاستخدام على نطاق واسع من المستخدمة في عمليات تقييم كفاءة 
الكلام باللغة الإنجليزية» با في ذلك مجموعة من الخيارات المقيدة جداً (مثل قراءة 
فقرات مكتوبة بصوت عال»» مرورا بالبنود الأقل تقييدا (مثل مهام تلخيص وقراءة 
نص مكتوب)» إلى الخيارات المفتوحة بشكل كامل. 

5 ,7- محرك أو آلة مصنف الكلام فرسانت (PKT Versant)‏ 

تطبيق فرسانت (PKT Versant)‏ هو اختبار آل للغة المنطوقة» والذي يمكن تنفيذه 
بسهولة عبر CEU‏ أو جهاز الحاسب من قبل مجموعات كبيرة من المرشحين. ويتم 
رصد درجات الاختبارات آليا في غضون دقائق تلقائياء ويتمكن هذا التطبيق من 
تنفيذ كل من: تقديم نتيجة الرصد عموماء بالإضافة إلى رصد درجات المهارة الأعلى. 
وقد ساعدت اختبارات التطبيق كلا من الشركات والوكالات الحكومية والجامعات 
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والمدارس في القياس الدقيق والسريع لمهارات التحدث بالإنجليزية» أو بالإسبانية» 
أو بالعربية في أكثر من ٠٠١‏ دولة حول أنحاء العالم من أجل أغراض الاختبارات 
والتدريب. 

يقوم نظام اختبار فرسانت Uf (Versant)‏ بتقييم ردود الاستجابات للعديد من 
المهام المختلفة. تتضمن اختبارات نظام فرسانت: القراءة بصوت عال» وتكرار الجمل» 
وبناء الجمل» وإعطاء الأجوبة على أسئلة قصيرة» رواية قصص قصيرة» واختيار 
الاستجابة» والمحادثة» وطريقة القراءة والفهم. في اختبار الكتابة لهذا التطبيق OB‏ بند 
المهام يتضمن: الكتابة» وإكمال الجمل» والإملاء وإعادة البناء» وكتابة رسائل البريد 
الإلكتروني. بالنسبة لبعض المهام» مثل القراءة والتكرار فهناك سلسلة واحدة من تتابع 
الكلمات هي بالضبط الصحيحة المتوقعة لكل استجابة. في مهام أخرى» يمكن أن تكون 
العناصر متعددة الأجوبة الصحيحة. تمر كافة عناصر الاختبار بإجراء اختبار مسبق 
عالي الكثافة على عينات مختلفة متنوعة من الناطقين وغير الناطقين باللغة في طائفة 
واسعة النطاق من جال مستوى القدرة. 


(EduSpeak) محرك أو آلة مصنف الكلام إديو سبيك‎ - , ٤ 

نظام إديو سبيك (EduSpeak)‏ من SRI‏ الدولية نظام مجموعة أدوات تطوير 
برمجيات تمكن مطورو البرمجيات من تعليم اللغة تفاعليا باستخدام أحدث نظم 
تكنولوجيا التعرف على الكلام والنطق وتسجيل الدرجات. 

يسمح رصد درجات النطق الآلي للحاسب بتقديم ملاحظات التغذية العكسية 
(Feedback)‏ على الجودة النوعية الشاملة للنطق للإشارة إلى مُشكلات التوليد 
المحددة. (S‏ يسمح بمعاينة المنهج في رصد درجات النطق» حيث إن ال هدف هو تقدير 
درجة التقييم لنوعية نطق فقرة أو جملة يسعى الخبير البشري إلى تعيينها . وتدعم أدوات 
إديوسبيك Ai»  (EduSpeak)‏ استشعار خطأ النطق على مستوى peus EU‏ 
قواعد البيانات من الكلام وتقيبيات OLI‏ عل مستوى ll‏ حيث إن بعض 
المقاطع عبر الحاتف تفتقر إلى جودة النطق» ومن الممكن تزويد الطالب بالتغذية العكسية 
وملاحظات حول عن أخطاء نطق محددة. 
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جرى تقييم قدرة النظام على الكشف عن أخطاء النطق (mispronunciation)‏ في 
قاعدة بيانات صوتية من 17٠١‏ آلف هاتف لحمل حديث متصل قاها ١١"‏ شخص من 
غير الناطقين باللغة الأم وتم تحويلها إلى نصوص مكتوبة. أظهرت النتائج أن نسبة الخطأ 
أعلى قليلا من الخطإ البشري. 


o‏ - أنظمة تقييم الرياضيات 
في مجال الرياضيات» فإن أداء نظم رصد الدرجات آليا قوية عندما يتم تقييد شكل 
الاستجابة. تتعامل نظم تقييم الرياضيات مع بنود الرياضيات التي تتضمن المعادلات 
أو التعبيرات الرياضية» والأشكال الهندسية ثنائية الأبعاد والخطوط المتصلة وغير 
المتصلة أو الخط المنحنى والرسوم البيانية والأشرطة» ومدخلات الأرقام. 
يشهد المجال حاليا ارتفاعًا في جودة هذه الأنظمة» ومن المتوقع أن تنجز هذه النظم 
مهامها بدقة عالية دون الحاجة لمراجعة المصحح البشري. 
وفيم| يلي نموذج لإحدى الأسئلة الاختبارات وتتطلب إجاباتها رسومًا بيانية تقوم 
نظم التقييم الآلية بتصحيحها ومنحها درجة تقييم: 
«عائلة تسافر بسرعة ثابتة خلال رحلة الطريق. بعد Y‏ ساعات من السير توقف 
لمدة ساعتين لتناول الطعام والراحة. ثم استأنفت السفر لمدة >٤‏ ساعات أخرى 
بنفس السرعة. ارسم رسم بياني تمثل به هذا الوضع». 
وهذا نموذج آخر لأسئلة تتطلب صياغة الإجابة في صورة تعبير ومعادلات 
رياضية: 
«في يوم واحد» باع أحد المتاجر عدد ٠٠٠١‏ قميص بتخفيض قيمته /.۲١‏ من 
السعر العادي وهو س للقميص الواحد. 
عبر بصورة رياضية عن إجمالي المبلغ الذي حصل عليه المنجر ني ذلك اليوم». 
وفيمايلٍ ناذج من أنظمة تقييم الكلام: 
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0,\— نظم تقييم الرياضيات (m-rater)‏ 

نظام 3,2 مصنف درجات الرياضيات من شركة (ETS's m-rater)‏ وهو محرك 
يستعمل في رصد الدرجات للاستجابات الرياضية مفتوحة النهاية» مثل تلك التي تأخذ 
شكل تعبيرات أو معادلات رياضية» أو رسوم بيانية. منذ أواخر تسعينيّات القرن العشرين 
DECE‏ 


(MathQuery) نظم تقييم الرياضيات‎ -Y,o 

3,2 ماث كويرى (MathQuery)‏ من شركة بيرسون (Pearson)‏ يعمل في بيئة 
الإنترنت ويقوم بتقيبم مهارات التفكير الحرجة في الرياضيات حيث يتعامل مع مسائل العالم 
الحقيقى التى يمكن حلها بأكثر من طريقة واحدة والتى يمكن أن تكون لما حلول صحيحة 
ةة ولس بالضرورة أن تكر هذه الخلول نتكافقة. 

يقوم المحرك (MathQuery)‏ بتحليل سلسلة الخطوات أو المسار إلى الحل. وبالنسبة 
للتعبيرات الرياضية» يقدم المحرك محرر لكتابة المعاد لات يمكن تخصيصه لمختلف مستويات 
الدراسة وموضوعات المحتوى ومزود برموز الجبر والرموز اللازمة لحساب التفاضل 
والتكامل وغيرها من المقررات الرياضية. 


5ت A‏ الكشف عن السرقات الأدبية (Plagiarism Detection Systems)‏ 

تستخدم هذه الأنظمة في الكشف عن السرقات الأدبية التي تتم في المقالات العلمية 
والأدبية. وتعتمد هذه الأنظمة في تقنياتها على التشابه بين نص ما وبين النص الأصلي 
الذي سبق نشره في تاريخ سابق. يتم فحص التشابه على نطاقين: النطاق الأول على 
مستوى النص ككل مثل أسلوب الكتابة (Stylometry)‏ والنطاق الثاني على مستوى 
الفقرات وهو ما يطلق عليه المستوى المحلي. 

وتقنية بصمة النص (Fingerprint)‏ على مستوى النص ككل فى Aoi ss SIT‏ 
تقوم اتا الكعن عن السرقات الأدبية بينام فواعدبيانات لبضمة الس sa‏ 
من المقالات المنشورة. وفي حالة فحص مقالة أو نص جديد يتم مقارنة بصمتها مع 
قاعدة البيانات. في حالة الكشف الإيجابي يتم الفحص التفصيلي بين هذا النص وبين 
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النصوص المكتشفةء فإذا كانت نسبة التشابه أعلى من قيمة معينة فيعتبر ذلك مؤشرًا 


deg‏ وجود سرقة أدبية. 


(Paraphrase Plagiarism) الاحتيال عن طريق إعادة الصياغة‎ -Y 


. (Translation Plagiarism) is jJI الاحتيال عن طريق‎ - ٤ 


و السرقات الأدبية تنقسم إلى الأنواع التالية: 
-١‏ نسخ ولصق (Copy and Paste Plagiarism)‏ . 
Y‏ - الاحتيال المتذكر .(Disguised Plagiarism)‏ 


.(Idea Plagiarism) قة الأفكار‎ PL 


تتجه البحوث حاليا إلى الكشف عن السرقات الأدبية عن طريق الترجمة» وهو ما 


. (Cross Lingual Plagiarism Detection -CLPD) يطلق عليه‎ 


وفيا يلى قائمة ببعض الأنظمة المستخدمة للكشف عن السرقات الأدبية: 
































أنظمة تجارية أنظمة متاحة للجمهور 
Chimpsky Attributor‏ 
CitePlag Copyscape‏ 
Copy Tracker Iparadigms: Ithenticate, Turnitin‏ 

eTBLAST Plagiarismdetect 

Plagium PlagScan 
SeeSources Urkund 

The Plagiarism Checker Veriguide 








توجد جهود بحثية قليلة جدا في هذا المجال رغم أهميته التعليمية وترجع صعوبة 


-V‏ أنظمة التقييم الآلي ودعم اللغة العربية 


تنفيذ أنظمة التقييم الآلي التي تدعم اللغة العربية إلى آنا تتطلب معالجات لغوية عميقة 
وهي غير متوفرة حتى يومنا هذا بصورة مرضية. 
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ولكن هذا لا يمنع من البدء في بناء أنظمة تقييم الأجوبة القصيرة وهي لا تتطلب 
العمق التحليلي اللغوي كما هو الحال بالنسبة للأسئلة المقالية. ولكنها تتطلب وجود ما 
هو ماثل لشبكة الكلمات للغة الإنجليزية (WordNet)‏ وشبكة الكلمات الدلالية للغة 
الإنجليزية .(Senti WordNet)‏ 


8- الخلاصة 

تتنوع مجالات التصحيح I‏ للامتحانات. وقد تم تقديم مختلف النظم الآلية في 
VU‏ زر داقر ب 8 ل عا فاا 
بين رصد الدرجات بشريا ورصد الدرجات بواسطة النظام. أصبحت نظم رصد 
الدرجات آليا واقعاء وطالما هناك فرق بين رصد درجات البشريٌ ورصد الدرجات 
الآلي فإن موضوع الدقة هي نقطة جيدة للبحث. 

تم تعريب أدوات ونظم وتطبيقات وحزم البرمجيات الجاهزة من خلال تزويدها 
بالحروف المطبعية (Fonts)‏ الخاصة باللغة العربية والقدرة على تداول الحروف العربية جنبا 
إلى جنب مع الحروف اللاتينية مع الأخذ في الاعتبار خصائص كتابة اللغة العربية من حيث 
C)‏ اتجاه الكتابة (من اليمين إلى GUAE‏ (ب) ومن تغير شكل الحروف طبقا لموقعه في 
الكلمة» (ج) ومن حيث ترتيب شفرة الحروف Gl)‏ حرف السين قبل حرف الشين مثلا). 

في نظام تشغيل الحاسب - مثل: نظام ويندوز ميكروسوفت - i‏ نظام التشغيل 
الخصائص السابقة لمعظم البرمجيات والتطبيقات التي تعمل تحت مظلته» إلا أن 
التطبيقات الحديثة» مثل : إدارة المعرفة» آلات البحث الذكية» تحويل النصوص المكتوبة 
إلى نصوص منطوقة» وتصحيح درجات الطلاب.. لا تكتفي بالتعامل مع النصوص 
على مستوى الحرف والكلمة لكنها تتعامل مع الجملة شكلا ومعنى. 

لا يصاخ مع التطبيقات IHE‏ اسلوب التعريب عل legen‏ للتعامل مع 
اللغة الأم وهى اللغة العربية» حيث يستدعي تعريب هذه التطبيقات أخذ شكل ومعنى 
الكلمة والجملة العربية في الاعتبار» كا أن الاكتفاء بالمعالجة على مستوى الحرف غير 
كاف في التطبيقات الذكية والمستقبلية» وهناك قصور شديد في تعريب هذه التطبيقات 
يجب تداركه في المستقبل القريب بقدر الجهد والاستطاعة. 
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الدكتور/ oe‏ عبد SAJI‏ علي رشوان 

cuan xn‏ اسا بقسم الإلكترونيات والاتصالات 
الكهربائية في IS‏ اهندسة — جامعة القاهرة. E OZ‏ عام AVY‏ \ 
وكان الأول على دفعته» وحصل على a»‏ ماجستيرات» ثم 
على الدكتوراه من جامعة كوين بكندا؛ أشرف على أكثر من ماثة 
رسالة ماجستير ودكتوراه. يدير الشّركة ا هندسيّة لتطوير النْظّم RDI Za ÉSI‏ المتخَصّصة 
فى ال FACTEUR‏ 





الدكتور/ Seal‏ بالله السّعيد ab‏ 

أستاذ الدراسات E‏ ية المُساعد بجامعة القاهرة» وأستاذ 
di Eo eso]‏ مدا PE‏ العُلياء 
ومنسق وحدة الموارد iaa di‏ بمشروع م مُعجم الدّوحة. 
S‏ نحو GSN‏ ورقة (ade‏ بالإضافة إلى e‏ 
في المُعجَويّة العرَبيّة والدّراسات S‏ المُعاصرة» ee‏ ل اک من عة 
مشرُوعاتٍ بحي دول في ميادين شعابجة اللات fa~. Eel‏ على عددٍ من الجوائز 
في مَيدان تخصّصهء منها : جائزة (ألكسو (ALECSO‏ للإبداع والابتكار في t Lm‏ 
ZI LG JU,‏ للح ال رجاف زة راشد بن حميد للعلوم والثقافة. 





الدكتور/ Xe ARA‏ محمد gj‏ 
حصل من جامعة القاهرة على بكالوريوس هندسة 
الماجستير في هندسة الحاسبات عام ١٠٠٠م,‏ ثم على درجة 
الدكتوراه في هندسة الاتصالات الكهربائية والإلكترونيات 
عام ١٠٠م. Jat‏ بالشركة الهندسية لتطوير النظم RDI EaSI‏ منذ يوليو ۹۹۵٠م‏ 
إلى ce Yt ble‏ وبينَ ule‏ ۲۰۰۷م و ١٠١1م‏ أستاذا زائرًا في كلية الحاسبات 


وتقنيات المعلومات بالأكاديمية البحرية للعلوم والتكنولوجيا والنقل البحري - فرع 





0 


هذه الطبعة إهداء من SAM‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
— - ييا 


القاهرةء alae‏ لل رجيات بشركة الو FE‏ چا الک( ی ا 
e doa‏ إل ONS‏ فاشو تر الرعزات pal‏ اع i JI‏ 
التاريخي» بين عامَيْ 5١١7م PYNT‏ 
الدكتور/ A.‏ عبد المنعم AAE‏ 

حصل من جامعة لامر ose‏ الدكتوراه في هندسة 
الحاسبات. يعمل - في الوقت الحالي - مُدِيرًا لأبحاث co all‏ 
بمعامل شركة مايكروسوفت - القاهرة. عمل باحثا في معمل 
e Reed‏ ل 





aa poU. 


الدكتور/ شريف مهدي عبده 

حصل على درجة الدكتوراه في هندسة الحاسبات عام ۳٠٠۲م‏ 
من جامعة ميامى بالولايات المتحدة الأمريكية. يعمل حاليا أستاذا 
ورئيسًا لقسم تكنولوجيا المعلومات IS‏ الحاسبات والمعلومات 
à‏ جامعة القاهرة؛ بالإضافة إلى عمله استشاريًا لتقنيات r* de:‏ 
اللغة ÉSA‏ فى عدد من المراكز البحثية. عمل - لفترة - : 
بشركة BBN‏ الأمريكيّة» وقد LAE‏ تدریباتِ عمليّة في Bell Jl afud Ni‏ 
Labs‏ شركة ias o‏ ونركز x eod‏ جائعة s‏ افو A ERAT‏ 
يربو عل zl am ul‏ 
براءة اختراع عن تقنية (حفص ©). 


و ه6١1-‏ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل 


الدكتور/ علي علي فهمي 

هو العَهِيدٌ التنابق 2 الخاسيات والعلومات فى جامعة 
القاهرة؛ يعمل - في الوقت الحا - أستادًا في الذّكاء الاصطناعيٌ 
وتعلم الآلة. fos‏ خلال الفترة من ۲۰۰۵ إلى ٠٠٠١‏ مُديرًا ركز 
التميز في التنقيب في البيانات ونمذجة اللغة DMCM‏ في مصرء 
وله إسهاماتٌ بحثيّةٌ بارزةٌ في تقنيات اللّخة العَرييّة وتطبيقاتها. 





-١601١ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 





مباحث لغوية 0۸ 


تطبيقات اساسية في 
المعالجة الالية للعة العربية 

يُصدر مركز الملك عبدالله بن عبدالعزيز الدولي لخدمة اللغة العربية هذا الكتاب ضمن سلسلة 
(مباحث لغوية)ء وذلك وفق Alas.‏ عمل مقسمة إلى مراحلء لموضوعات علمية رأى المركز حاجة المكتبة 
اللغوية العربية إليهاء أو إلى بدء النشاط البحثي فيهاء واجتهد ب استكتاب نخبة من المحررين والمؤلفين 
للنهوض يعنوانات هذه السلسلة على أكمل وجه. 

ويهدف المركز من وراء ذلك إلى تنشيط العمل 2 المجالات التي تَنَبّه إليها هذه السلسلة؛ سواء أكان 
العمل علميا بحثياء آم عمليا تنفيذياء ويدعو المركز الباحثين كافة من أنحاء العالم إلى المساهمة .2 هذه 
السلسلة. 

Ss‏ الأمانة العامة أن تشيد بجهد السادة المؤلفين» وجهد مُحرّرَي الكتاب» على ما تفضلوا به من رؤى 
وأفكار لخدمة العربية 4# هذا السياق البحثى. 

والشكر والتقدير الوافر لمعالي وزير التعليم المشرف العام على المركزء الذي يحث على كل ما من 
شأنه تثبيت الهوية اللغوية العربيةء وتمتينهاء وفق رؤية استشرافية محققة لتوجيهات قيادتنا الحكيمة. 

والدعوة موجهة إلى جميع المختصين والمهتمين للتواصل مع المركز؛ لبناء المشروعات العلمية؛ وتكثيف 


الجهودء والتكامل نحو تمكين لغتنا العرييةء وتحقيق وجودها السامى 4 مجالات الحياة. 


الأمين العام للمركز 
أ. د. محمود إسماعيل صالح 
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